¿Qué es, exactamente, big data?
Para entender qué significa realmente «big data», resulta útil conocer ciertos antecedentes históricos. A continuación, ofrecemos la definición de Gartner, de aproximadamente 2001 (y que continúa siendo la definición de referencia): Big data son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a una velocidad superior. Esto se conoce como «las tres V».
Dicho de otro modo, el big data está formado por conjuntos de datos de mayor tamaño y más complejos, especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos convencional sencillamente no puede administrarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para abordar problemas empresariales que antes no hubiera sido posible solucionar.
Las «tres V» de big data
Volumen | La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de Twitter, flujos de clics de una página web o aplicación para móviles, o equipo con sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de petabytes. |
Velocidad | La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se utilizan. Por lo general, la mayor velocidad de los datos se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real. |
Variedad | La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos convencionales eran estructurados y podían organizarse claramente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio o video, requieren un preprocesamiento adicional para poder obtener significado y habilitar los metadatos. |
El valor y la veracidad de big data
En los últimos años, han surgido otras «dos V»: valor y veracidad.
Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?
Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.
Avances tecnológicos recientes han reducido exponencialmente el costo del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.
Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma). Se trata de todo un proceso de descubrimiento que requiere que los analistas, usuarios empresariales y ejecutivos se planteen las preguntas correctas, identifiquen patrones, tomen decisiones informadas y predigan comportamientos.
Pero ¿cómo llegamos hasta aquí?¿Piensa pasarse al big data? Necesita una estrategia en la nube
Historia de big data
Si bien el concepto «big data» en sí mismo es relativamente nuevo, los orígenes de los grandes conjuntos de datos se remontan a las décadas de 1960 y 1970, cuando el mundo de los datos acababa de empezar con los primeros centros de datos y el desarrollo de las bases de datos relacionales.
Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban los usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y analizar grandes conjuntos de datos. En esta época, también empezaría a adquirir popularidad NoSQL.
El desarrollo de marcos de código abierto, tales como Hadoop (y, más recientemente, Spark), sería esencial para el crecimiento del big data, pues estos hacían que el big data fuera más fácil de usar y más barato de almacenar. En los años transcurridos desde entonces, el volumen de big data se ha disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos no son los únicos que lo hacen.
Con la llegada de la Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos conectados a Internet que generan datos sobre patrones de uso de los clientes y el rendimiento de los productos. El surgimiento del aprendizaje autónomo ha producido aún más datos.
Aunque el big data ha llegado lejos, su utilidad recién empieza. La computación en la nube ha ampliado aún más las posibilidades del big data. La nube ofrece una escalabilidad realmente flexible, donde los desarrolladores pueden simplemente agilizar clústeres ad hoc para probar un subconjunto de datos.
Ventajas de big data y del análisis de datos:
- El big data le permite obtener respuestas más completas, ya que dispone de mayor cantidad de información.
- La disponibilidad de respuestas más completas significa una mayor fiabilidad de los datos, lo que implica un enfoque completamente distinto a la hora de abordar problemas.
Descubra más soluciones de big dataTrate de explorar y visualizar sus datos de forma gratuita
Casos de uso de big data
El big data puede ayudarle a abordar una serie de actividades empresariales, desde la experiencia de los clientes hasta los análisis. A continuación, recopilamos algunas de ellas (puede encontrar más casos de uso en Soluciones Oracle Big Data).
Desarrollo de productos | Empresas como Netflix y Procter & Gamble usan big data para prever la demanda de los clientes. Construyen modelos predictivos para nuevos productos y servicios, clasificando atributos clave de productos anteriores y actuales, y modelando la relación entre dichos atributos y el éxito comercial de las ofertas. Además, P&G utiliza los datos y los análisis de grupos de interés, redes sociales, mercados de prueba y avances de salida en tiendas para planificar, producir y lanzar nuevos productos. |
Mantenimiento predictivo | Los factores capaces de predecir fallas mecánicas pueden estar profundamente ocultos entre datos estructurados (año del equipo, marca o modelo de una máquina) o entre datos no estructurados que cubren millones de entradas de registros, datos de sensores, mensajes de error y temperaturas de motor. Al analizar estos indicadores de problemas potenciales antes de que estos se produzcan, las organizaciones pueden implementar el mantenimiento de una forma más rentable y optimizar el tiempo de servicio de componentes y equipos. |
Experiencia del cliente | La carrera por los clientes ya partió. Disponer de una vista clara de la experiencia del cliente es más posible que nunca. El big data le permite recopilar datos de redes sociales, visitas a páginas web, registros de llamadas y otras fuentes para mejorar la experiencia de interacción, así como maximizar el valor ofrecido. Empiece a preparar ofertas personalizadas, reducir las tasas de abandono de los clientes y administrar las incidencias de manera proactiva. |
Fraude y cumplimiento | En lo que a seguridad se refiere, no se enfrenta a simples hackers solitarios, sino a equipos completos de expertos. Los contextos de seguridad y requisitos de conformidad están en constante evolución. El big data le ayuda a identificar patrones en los datos que pueden ser indicativos de fraude, al tiempo que concentra grandes volúmenes de información para agilizar la generación de informes normativos. |
Aprendizaje autónomo | El aprendizaje autónomo es un tema candente en la actualidad. Los datos, concretamente big data, es uno de los motivos de que así sea. Ahora, en lugar de programarse, las máquinas pueden aprender. Esto es posible gracias a la disponibilidad de big data para crear modelos de aprendizaje autónomo. |
Eficiencia operativa | Puede que la eficiencia operativa no sea la noticia más importante, pero es el área en que big data tiene un mayor impacto. El big data le permite analizar y evaluar la producción, la opinión de los clientes, las devoluciones y otros factores para reducir las situaciones de falta de stock y prever la demanda futura. El big data también puede utilizarse para mejorar la toma de decisiones en función de la demanda de mercado del momento. |
Impulse la innovación | El big data puede ayudarle a innovar mediante el estudio de las interdependencias entre seres humanos, instituciones, entidades y procesos, y, posteriormente, mediante la determinación de nuevas maneras de usar dicha información. Utilice las perspectivas que le ofrecen los datos para mejorar sus decisiones financieras y consideraciones de planificación. Estudie las tendencias y lo que desean los clientes para ofrecer nuevos productos y servicios. Implemente políticas de precios dinámicas. Las posibilidades son infinitas. |
Desafíos de big data
Si bien es cierto que el big data promete mucho, también se enfrenta a desafíos.
En primer lugar, el big data se caracteriza por su gran tamaño. Aunque se han desarrollado nuevas tecnologías para el almacenamiento de datos, el volumen de datos duplica su tamaño cada dos años aproximadamente. Las organizaciones continúan esforzándose por mantener el ritmo de crecimiento de sus datos y por encontrar formas de almacenarlos eficazmente.
Pero no basta con almacenar los datos. Para ser de algún valor, los datos deben poder utilizarse, y esto depende de su conservación. Disponer de datos limpios —es decir, datos relevantes para el cliente y organizados de tal modo que permitan un análisis significativo— requiere una gran cantidad de trabajo. Los científicos de datos dedican entre un 50 y un 80 por ciento de su tiempo a seleccionar y preparar los datos antes de que estos puedan utilizarse.
Por último, la tecnología de big data cambia a un ritmo rápido. Hace unos años, Apache Hadoop era la tecnología más conocida utilizada para administrar big data. Más tarde, en 2014, entraría en juego Apache Spark. Hoy en día, el enfoque óptimo parece ser una combinación de ambos marcos. Mantenerse al día en cuanto a tecnología de big data supone un desafío constante.
Descubra más recursos de big dataMás información sobre productos Oracle Big DataTrate de explorar y visualizar sus datos de forma gratuita
Cómo funciona big data
El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Iniciarse en ello requiere de tres acciones clave:
1. Integre
El big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos de integración de datos convencionales, tales como ETL (extract, transform, load [extraer, transformar, cargar]), generalmente no están a la altura de dicha tarea. Analizar conjuntos de big data de un tamaño de uno o más terabytes, o incluso petabytes, requiere de nuevas estrategias y tecnologías.
Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de que estén formateados y disponibles de tal forma que los analistas empresariales puedan empezar a utilizarlos.
2. Administrar
El big data requiere almacenamiento. Su solución de almacenamiento puede residir en la nube, en las instalaciones o en ambos. Puede almacenar sus datos de cualquier forma que desee e incorporar los requisitos de procesamiento de su preferencia y los motores de procesamiento necesarios a dichos conjuntos de datos a pedido. Muchas personas eligen su solución de almacenamiento en función de dónde residan sus datos en cada momento. La popularidad de La nube está aumentando progresivamente porque es compatible con sus requisitos tecnológicos actuales y porque le permite incorporar recursos a medida que los necesita.
3. Analizar
La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una nueva claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando los datos para realizar nuevos descubrimientos. Comparta sus hallazgos con otras personas. Construya modelos de datos con aprendizaje autónomo e inteligencia artificial. Ponga sus datos en funcionamiento.
Prácticas recomendadas de big data
Para ayudarle en su transición a big data, hemos recopilado una serie de prácticas recomendadas que debe tener en cuenta. A continuación, detallamos nuestras pautas para crear con éxito una base de big data.
Alinear big data con objetivos empresariales específicos | La disponibilidad de conjuntos de datos más amplios le permite realizar nuevos hallazgos. A tal efecto, es importante basar las nuevas inversiones en habilidades, organización o infraestructura con un marcado contexto empresarial para garantizar la constancia en la financiación e inversión en proyectos. Para determinar si se encuentra en el camino correcto, pregúntese en qué medida el big data respalda y habilita sus principales prioridades empresariales y de TI. Algunos ejemplos incluyen entender cómo filtrar los registros web para comprender el comportamiento del comercio electrónico, extraer la percepción de las redes sociales y de las interacciones de atención al cliente, así como entender los métodos de correlación estadística y su relevancia para los datos de clientes, productos, fabricación e ingeniería. |
Mitigue la escasez de habilidades con estándares y gobierno | Uno de los mayores obstáculos para beneficiarse de su inversión en big data es la escasez de habilidades. Puede mitigar el riesgo asegurándose de incorporar a su programa de gobierno de TI tecnologías, consideraciones y decisiones relativas a big data. Normalizar su enfoque le permitirá administrar los costos y aprovechar los recursos. Las organizaciones que implementen soluciones y estrategias de big data deben evaluar sus necesidades de habilidades de forma temprana y frecuente, e identificar de manera proactiva las posibles carencias de habilidades. Esto puede lograrse mediante la capacitación regular o cruzada entre los recursos existentes, la contratación de nuevos recursos y el uso de empresas de consultoría. |
Optimizar la transferencia de conocimientos con un centro de excelencia | Utilice un enfoque basado en un centro de excelencia para compartir conocimientos, supervisar el control y administrar las comunicaciones de proyectos. Tanto si el big data es una inversión nueva o en expansión, los costos directos e indirectos pueden distribuirse en toda la empresa. Utilizar este enfoque puede contribuir a incrementar las capacidades de big data y la madurez del conjunto de la arquitectura de información de una forma más sistemática y estructurada. |
La principal ventaja reside en alinear los datos estructurados y no estructurados | Analizar el big data de forma aislada sin duda aporta valor. Sin embargo, puede obtener una perspectiva empresarial aún más valiosa relacionando e integrando el big data de baja densidad con los datos estructurados que ya usa actualmente.Tanto si está recopilando big data de clientes, de productos, de equipos o ambientales, el objetivo es añadir puntos de datos más relevantes a sus resúmenes maestros y analíticos, lo que le permitirá obtener mejores conclusiones. Por ejemplo, existe una diferencia en distinguir la percepción de todos los clientes de la de solo sus mejores clientes. Por eso, muchos consideran que big data constituye una extensión integral de sus capacidades existentes de inteligencia empresarial, de su plataforma de almacenamiento de datos y de su arquitectura de información.Tenga en cuenta que los modelos y procesos analíticos de big data pueden ser tanto humanos como automáticos. Las capacidades de análisis de big data incluyen estadísticas, análisis especiales, semántica, detección interactiva y visualización. Mediante el uso de modelos analíticos, puede relacionar distintos tipos y fuentes de datos para realizar asociaciones y hallazgos significativos. |
Planificar el laboratorio de hallazgos en pro del rendimiento | El concepto «hallazgo» implica que los datos no siempre se obtienen directamente. En ocasiones, ni siquiera sabemos qué estamos buscando. Eso es de esperar. La dirección y los equipos de TI deben respaldar esta «falta de dirección» o «falta de claridad en los requisitos».Al mismo tiempo, es importante que analistas y científicos de datos colaboren estrechamente con la empresa para entender las principales necesidades y las carencias de conocimientos de la empresa. Para incorporar el estudio interactivo de los datos y la experimentación de algoritmos estadísticos, necesita contar con áreas de trabajo de alto rendimiento. Asegúrese de que los entornos de pruebas (sandbox) tienen el apoyo que necesitan y están correctamente gobernados. |
Alineación con el modelo operativo en la nube | Los usuarios y procesos de big data requieren acceso a una amplia variedad de recursos de experimentación reiterativa y ejecución de tareas de producción. Una solución de big data incluye todos los ámbitos de los datos, incluidas transacciones, datos principales, datos de referencia y datos resumidos. Los entornos de pruebas (sandbox) analíticos deben crearse a pedido. La administración de recursos es fundamental para garantizar el control de todo el flujo de datos, incluido el procesamiento previo y posterior, la integración, el resumen dentro de la base de datos y la creación de modelos analíticos. Disponer de una estrategia bien definida de aprovisionamiento y seguridad en la nube pública y privada es fundamental para respaldar estos requisitos cambiantes. |
FUENTE:https://www.oracle.com/mx/big-data/what-is-big-data.html