Para describir este contexto actual habitualmente se habla de cuatro características de los datos, cuya inicial común (la "V") ha dado lugar a que habitualmente se hable del modelo de "las 4V del Big Data" (modelo que, a su vez, no es enteramente nuevo y tiene una clara inspiración en un modelo preexistente concebido por Doug Laney en el año 2000).
Las ya famosas 4V hacen referencia a las siguientes dimensiones:
- Volumen. A medida que personas y sistemas estamos más y más conectados vía Internet a través de multitud de aplicaciones y dispositivos, crece exponencialmente la cantidad de datos generados por el uso de dichos recursos, hasta el punto de dejar ridículas a unidades de medida como el gigabyte o el terabyte.
Las ya famosas 4V hacen referencia a las siguientes dimensiones:
- Volumen. A medida que personas y sistemas estamos más y más conectados vía Internet a través de multitud de aplicaciones y dispositivos, crece exponencialmente la cantidad de datos generados por el uso de dichos recursos, hasta el punto de dejar ridículas a unidades de medida como el gigabyte o el terabyte.
- Variedad. Las fuentes de las que provienen dichos datos y los formatos en los que están representados son de muy diferente tipo (más o menos estructurados, sólo textuales o integrando multimedia, etc.), lo que hace más compleja la integración de tanta heterogeneidad para poder interpretarlos y explotarlos de manera interrelacionada.
- Velocidad. A su vez, debido a la gran cantidad de datos y a lo disperso de su origen y/o lugar de uso (muchas veces en "la nube"), es necesaria la utilización de estructuras eficientes de almacenamiento y transmisión de datos que aseguren unos mínimos de velocidad y el bajo consumo de recursos.
- Validez / Veracidad. La propia naturaleza del crecimiento exponencial de la web, de manera descentralizada y donde cada nodo añade información sin tener que pasar por filtros previos de rigor o calidad, genera una serie de problemas a resolver de cara al aprovechamiento de dichos datos, en términos de inconsistencias, errores, datos u orígenes no confirmados, etc.
Son ya bastantes las referencias que amplían este modelo incluso hasta usar seis, siete o más "V" para describir las características clave de los datos en este contexto de "Big Data". No obstante, la "V" adicional que más frecuentemente veremos junto a las cuatro ya citadas es la de Valor, y es que de nada sirve definir todo un modelo de explotación de datos si no tenemos claro de antemano las preguntas para las que queremos obtener respuesta, su relevancia y el beneficio que pretendemos obtener con su análisis.
No hay comentarios:
Publicar un comentario