Analizando las “V” (Volumen, Velocidad, Variedad) del Big Data

Ya hemos revisado en el blog el conocido modelo de las “V del Big Data” (sean 3, 4 o muchas más, según la versión) que tratan de describir las características en torno a los datos que hacen necesario el uso de las tecnologías Big Data. Dando por hecho que esos datos cuentan con un potencial Valor de negocio (una V sin la cual no tendría sentido ponerse a analizar el problema), y centrándonos en las tres dimensiones (Volumen, Velocidad y Variedad) que ya en 2001 eran objeto de reflexión respecto a las tendencias en gestión de datos, ¿en qué medida cada una de esas tres características se relaciona con el Big Data y requiere del uso de unas u otras tecnologías?

Lo que desde luego podemos tener claro es que la “Big” del Big Data no es casual, y que el Volumen de datos es el principal motor que ha impulsado el desarrollo de estas tecnologías, para ser capaz de acercar las técnicas de Data Mining a los campos de aplicación donde la gran cantidad de datos acumulados a procesar no permitían un uso eficiente de las herramientas de análisis existentes hasta entonces. Esta es la principal necesidad que motiva a Google en primera instancia a idear el modelo MapReduce.

Respecto a la Velocidad, debemos entender que no estamos hablando de lo rápido o no que se transmiten los datos (ancho de banda), sino de que el flujo en tiempo real de los datos es lo suficientemente “caudaloso” (teniendo por tanto mucho que ver también con la dimensión de Volumen) como para requerir de herramientas adicionales si no queremos perder información y pretendemos analizarla para dar una rápida respuesta. Al analizar las funciones básicas de las capas de la Arquitectura Lambda ya veíamos cómo la necesidad de realizar análisis en tiempo real y proporcionar bajos tiempos de respuesta ante un gran volumen de información puede resolverse combinando inteligentemente el procesamiento de grandes volúmenes de datos en diferido con el uso de herramientas que posibiliten ese análisis en tiempo real de grandes flujos de datos.

La Variedad o, dicho de otro modo, la integración de fuentes heterogéneas de los datos no es un problema de origen particularmente reciente y que lleva abordándose ya tiempo con herramientas semánticas como las ontologías de datos y usando lenguajes como XML o RDF. La presencia de muy diversos datos (sobre todo con la eclosión de las redes sociales y la compartición masiva de contenido multimedia) y su potencial aprovechamiento vía tecnologías Big Data es lo que pone estas técnicas en relación, aunque en última instancia también más por el Volumen de esos datos heterogéneos que por la Variedad en sí misma. De hecho el carácter de estructurado o no que pudieran tener dichos datos tampoco sería el criterio fundamental (ni tampoco el escenario más frecuente en las empresas de nuestro entorno) por el que apostar por las herramientas Big Data para resolver nuestro problema de análisis de datos.

Cabecera personalizada

Analizando las “V” (Volumen, Velocidad, Variedad) del Big Data

No hay comentarios:

Publicar un comentario