¿Qué es Big Data? El lean llega a la gestión de megadatos
La naturaleza de la información hoy es diferente a la información en el pasado. Debido a la abundacia de sensores, micrófonos, cámaras, escáneres médicos, imágenes, etc. en nuestras vidas, los datos generados a partir de estos elementos serán dentro de poco el segmento más grande de toda la información disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y retrabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar.
Big Data, el concepto
Debido al gran avance que existe día con día en las tecnologías de información y la comunicación que es la disciplina dedicada a los datos masivos. Esta ingente cantidad de datos insta a las organizaciones a enfrentarse a nuevos desafíos que les permitan analizar, descubrir y entender más allá de lo que sus herramientas tradicionales reportan sobre su información, al mismo tiempo que durante los últimos años el gran crecimiento de las aplicaciones disponibles en Internet han sido parte importante en las decisiones de negocio de las empresas.
Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en:
- La captura
- El almacenamiento
- La búsqueda
- La compartición,
- RI análisis
- La visualización.
La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos de todos los ámbitos.
Volumen, Velocidad y Variedad
Ahora la corriente principal de los datos masivos gira en torno a las 3V‘s: el volumen, la velocidad y la variedad
Volumen
- Muchos factores contribuyen al aumento de volumen de datos. Datos basados en transacciones almacenados a través de los años. Los datos no estructurados que fluyen desde los medios de comunicación social. Cantidades crecientes provenientes de sensores y los datos de máquina a máquina que se recogen. En el pasado, el volumen de datos excesivo era una cuestión física de almacenamiento. Pero con la disminución de los costos del almacenamiento, otras cuestiones surgen, incluyendo la forma de determinar la pertinencia dentro de los grandes volúmenes de datos y cómo utilizar la analítica para crear valor a partir de los datos pertinentes.
Velocidad
- Los datos se transmiten a velocidad sin precedentes y deben ser tratados de manera oportuna. Sensores RFID, y contadores inteligentes están impulsando la necesidad de tratar con verdaderos torrentes de datos en tiempo casi real. Por ello, para la mayoría de las organizaciones el reaccionar con la suficiente rapidez para hacer frente a la velocidad de datos es un reto.
Variedad
- Los datos de hoy viene en todo tipo de formatos. Los datos estructurados, numéricos desde bases de datos tradicionales. Información creada a partir de las aplicaciones de línea de negocio. Documentos no estructurados de texto, correo electrónico, videos, audios, datos ticker y transacciones financieras. La gestión, la fusión y el manejo de diferentes variedades de datos es algo diario en muchas organizaciones.
Hay quiénes consideran dos dimensiones adicionales cuando se piensa en grandes datos:
La variabilidad
- Además de las crecientes velocidades y variedades de datos, los flujos de datos pueden ser altamente incompatibles en picos periódicos. ¿Hay alguna tendencia en los medios sociales? LospPicos de carga de datos diarios, estacionales y activados por eventos pueden ser un reto para la gestión. Más aún con datos no estructurados involucrados.
Complejidad
- Los datos de hoy provienen de múltiples fuentes. Y todavía vincular, repartir, limpiar y transformar los datos a través de sistemas es complejo. Sin embargo, para seguir el ritmo del mercado, es necesario conectar y correlacionar las relaciones, jerarquías y los múltiples vínculos de datos o estos datos pueden salirse rápidamente fuera de nuestro control.
Hadoop y MapReduce
MapReduce es un modelo de programación utilizado por Google para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras y al commodity computing. El nombre del framework está inspirado en los nombres de dos importantes métodos, macros o funciones en programación funcional: Map y Reduce. MapReduce ha sido adoptado mundialmente, ya que existe una implementación OpenSource denominada Hadoop. Su desarrollo fue liderado inicialmente por Yahoo y actualmente lo realiza el proyecto Apache.
MapReduce es el núcleo de Hadoop. MapReduce en realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer proceso map
, el cual toma un conjunto de datos y lo convierte en otro conjunto.
Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas a través del clúster; de esta manera, las funciones map
y reduce
pueden ser ejecutadas en pequeños subconjuntos y esto provee de la escalabilidad necesaria para el procesamiento de grandes volúmenes.
La utilidad del manejo del Big Data o Datos Masivos
El verdadero problema no es que usted está adquiriendo grandes cantidades de datos. Es lo que haces con los datos lo que verdaderamente cuenta. La visión esperanzadora es que las organizaciones serán capaces de tomar datos de cualquier fuente, aprovechar los datos relevantes y analizarlos para encontrar respuestas que permitan:
- Reducción de costes
- Reducción de tiempo
- Desarrollo de nuevos productos y ofrendas optimizados
- Una toma de decisiones empresariales más inteligente. Por ejemplo, mediante la combinación de grandes datos y análisis de alta potencia, es posible:
- Determinar las causas profundas de los fracasos, los problemas y defectos en tiempo casi real, lo que podría salvar miles de millones de dólares anuales.
- Optimizar las rutas de muchos miles de vehículos de entrega de paquetes mientras están en la carretera.
- Analizar millones de SKUs para determinar los precios que maximizan el beneficio y el inventario claro.
- Generar cupones de venta en el punto de venta basado en las compras actuales y anteriores del cliente.
- Enviar recomendaciones adaptadas a los dispositivos móviles, mientras que los clientes están en el área de derecho de aprovechar las ofertas.
- Recalcular carteras de riesgo enteras en cuestión de minutos.
- Identificar rápidamente los clientes que más importan.
- Utilice el análisis de clics y la minería de datos para detectar comportamientos fraudulentos
Big Data en la industria
Actualmente, extensas cantidades de información alimentan la toma de decisiones de las empresas de automoción y el sistema de análisis de beneficios generados por la marca. Las empresas entonces requieren contar con una adecuada visibilidad, monitoreo y alertas proactivas a lo largo de la cadena de abastecimiento y distribución a fin de reducir los costos, mejorar la eficiencia operativa, analizar los diferentes problemas y predecir la satisfacción de los usuarios.
En la industria en general se está empleando el Big Data para el análisis del mantenimiento predictivo y proactivo de las instalaciones o equipos (máquinas). La integración de técnicas y tecnologías predictivas enfocadas en la monitorización de los modos de fallo de acuerdo con la norma ISO 17359:2011 se convierte en la clave del éxito para disponer de un cuadro de mando en tiempo real del estado de salud de los activos. El acceso a la información del monitoreo de la condición mediante el uso de plataformas en la nube así como el desarrollo y aplicación de técnicas avanzadas de análisis de Big Data permiten la consolidación de toda la información relativa al monitoreo de la condición en una base de datos común, un aumento en la fiabilidad en los diagnósticos y por tanto una reducción en el retorno de la inversión.
Fuentes
Bonus extra
El contenido está bloqueado
Comparte esta página para desbloquear el contenido!