Cabecera personalizada

El blog de Mikel Niño
Emprendimiento digital, startups, Big Data Analytics y nuevos modelos de negocio

Las "4 V" del Big Data

Una parte importante de las tecnologías de manejo de información implicadas en lo que se ha venido a llamar "Big Data" está basada en soluciones con una ya larga trayectoria en el contexto de la informática (técnicas semánticas, sistemas expertos, métodos probabilísticos...). No estaríamos hablando por tanto de problemas o técnicas enteramente nuevos, sino de las nuevas oportunidades que surgen gracias a que dichos problemas, las técnicas diseñadas para solucionarlos y las características a atender en cuanto a los datos a manejar se manifiestan hoy en día en un entorno (nuestra sociedad de la información actual) donde las cifras de todo lo concerniente a volumen de datos e información adquieren un orden muy superior de magnitud. 

Para describir este contexto actual habitualmente se habla de cuatro características de los datos, cuya inicial común (la "V") ha dado lugar a que habitualmente se hable del modelo de "las 4V del Big Data" (modelo que, a su vez, no es enteramente nuevo y tiene una clara inspiración en un modelo preexistente concebido por Doug Laney en el año 2000).

Las ya famosas 4V hacen referencia a las siguientes dimensiones:

- Volumen. A medida que personas y sistemas estamos más y más conectados vía Internet a través de multitud de aplicaciones y dispositivos, crece exponencialmente la cantidad de datos generados por el uso de dichos recursos, hasta el punto de dejar ridículas a unidades de medida como el gigabyte o el terabyte.

- Variedad. Las fuentes de las que provienen dichos datos y los formatos en los que están representados son de muy diferente tipo (más o menos estructurados, sólo textuales o integrando multimedia, etc.), lo que hace más compleja la integración de tanta heterogeneidad para poder interpretarlos y explotarlos de manera interrelacionada.

- Velocidad. A su vez, debido a la gran cantidad de datos y a lo disperso de su origen y/o lugar de uso (muchas veces en "la nube"), es necesaria la utilización de estructuras eficientes de almacenamiento y transmisión de datos que aseguren unos mínimos de velocidad y el bajo consumo de recursos.

- Validez / Veracidad. La propia naturaleza del crecimiento exponencial de la web, de manera descentralizada y donde cada nodo añade información sin tener que pasar por filtros previos de rigor o calidad, genera una serie de problemas a resolver de cara al aprovechamiento de dichos datos, en términos de inconsistencias, errores, datos u orígenes no confirmados, etc.

Son ya bastantes las referencias que amplían este modelo incluso hasta usar seis, siete o más "V" para describir las características clave de los datos en este contexto de "Big Data". No obstante, la "V" adicional que más frecuentemente veremos junto a las cuatro ya citadas es la de Valor, y es que de nada sirve definir todo un modelo de explotación de datos si no tenemos claro de antemano las preguntas para las que queremos obtener respuesta, su relevancia y el beneficio que pretendemos obtener con su análisis.

No hay comentarios:

Publicar un comentario