Cabecera personalizada

El blog de Mikel Niño
Emprendimiento digital, startups, Big Data Analytics y nuevos modelos de negocio

¿Es realmente Big Data todo el "Big Data"?

A estas alturas creo que es innegable la enorme popularidad que está alcanzando el concepto de Big Data, ya no sólo dentro del ámbito exclusivamente tecnológico o profesional, sino también en los medios de comunicación generalistas donde de cuando en cuando nos encontramos con noticias referidas a este tema. Sin embargo, tanta repercusión debería ser merecedora de un mínimo pero riguroso análisis para comprobar si realmente “es Big Data todo lo que reluce” en lo que se nos cuenta como tal. Un breve repaso a algunos de los términos e hitos clave que hemos ido revisando en el blog nos puede ayudar en esta tarea.

Como primera idea clave debemos entender que la aplicación del análisis de datos a necesidades de negocio no es una idea en absoluto reciente y su práctica lleva desarrollándose desde hace décadas. Ni siquiera cuando nos referimos específicamente a la creación de modelos predictivos a partir del análisis de bancos de datos (es decir, a la minería de datos apoyada en técnicas de aprendizaje automático) estamos hablando de innovaciones tecnológicas especialmente recientes. Ya en los años 80 y 90 sectores como la banca, las compañías de seguros o empresas ligadas a las finanzas en general empiezan a aplicar este “data mining” a sus bancos de datos, con fines ligados por ejemplo a la detección de fraudes o a la concesión de créditos (siempre por tanto ligados a apoyar o facilitar procesos de toma de decisión dentro del negocio).

Las tecnologías Big Data nacen, como ya hemos comentado anteriormente, cuando las grandes empresas tecnológicas que surgen y se desarrollan dentro del creciente uso de la web (con Google y otras más también a la cabeza) quieren también aplicar esas técnicas de minería de datos y analítica predictiva a sus bancos de datos (de la misma manera que, como acabamos de ver, otros ya lo venían haciendo en sus sectores), pero se encuentran con el problema de que el gran volumen de datos que poseen (en órdenes de magnitud muy superiores a los que se daban en los ejemplos antes citados) no es procesable eficientemente por las tecnologías de análisis de datos tal y como estaban concebidas hasta ese momento, es decir, para volúmenes de datos analizables por las prestaciones de una sola máquina digamos “potente”. La solución que adoptan para solventarlo es crear unas herramientas base (modelo MapReduce, sistemas de ficheros distribuidos) que les permiten abordar dicho análisis de datos usando conjuntos (clusters) de máquinas cuyas prestaciones por separado sean quizá más modestas, pero que en conjunto (y coordinado su trabajo usando las citadas tecnologías) resuelven el procesamiento de manera eficiente.

Debemos entender, por tanto, que las tecnologías Big Data son un conjunto de tecnologías concretas utilizadas en el contexto de la minería de datos cuando las características específicas del problema (principalmente, el gran volumen de datos a analizar) requiere de las mismas. En resumidas cuentas, no toda la minería de datos es Big DataEntiendo que la confusión de términos y el creciente uso y abuso de la etiqueta “Big Data” (con fines en muchos casos “marketinianos”, con perdón por el palabro) se deriva principalmente de que el público en general ha empezado a conocer la minería de datos y la analítica predictiva de la mano de la repercusión obtenida por su aplicación en estas empresas de Silicon Valley (ligada por tanto a casos de negocio que sí requieren del empleo de tecnologías Big Data, por la cantidad de datos manejados). Esto ha provocado que en muchísimos casos ambos conceptos acaben entremezclados y que incluso la parte (Big Data) haya acabado usándose en muchas ocasiones en vez del todo (minería de datos y analítica predictiva). Dicho de otra manera, en muchísimos casos se utiliza (mal) la etiqueta “Big Data” para referirse a cualquier aplicación de minería de datos, independientemente de si el volumen de esos datos es realmente “big” o no, y de si por tanto el problema requiere o no de esas tecnologías específicas.

No hay comentarios:

Publicar un comentario