Es habitual que, al hablar de Big Data, aparezcan entremezclados otros términos y conceptos (algunos de los cuales ya han sido comentarios anteriormente en el blog) relacionados con la exploración y análisis de datos en contextos de negocio. En esta entrada presentaré las diferencias entre unos y otros, para aclarar el tipo de análisis de datos en el que se centran y cuándo sería correcto emplear uno u otro término.
El concepto que quizá lleva más tiempo con nosotros ligado a la relación entre la captura y análisis de datos y la toma de decisiones de negocio es el de Business Intelligence. De hecho el primero en utilizar esta expresión fue Hans Peter Luhn, ingeniero de IBM, en 1958 (como vemos mucho antes incluso de la popularización de la informática doméstica), término que fue popularizado posteriormente por Howard Dresner, a finales de los 80 y principios de los 90, trabajando como analista del Gartner Group. Con el tiempo, la definición de Business Intelligence ha quedado acotada a un análisis de datos de tipo descriptivo, en el que se consultan y visualizan de manera agregada datos provenientes de diferentes indicadores de negocio para obtener una visión de lo que ha pasado y lo que está pasando. Esta definición deja fuera, por tanto, la búsqueda de patrones, tendencias o modelos en los datos que nos permitan un análisis de tipo predictivo que busca entender lo que es probable que suceda en el futuro (ante nuevos casos aún por analizar) y por qué.
Este terreno de la analítica predictiva es donde se mueven términos como la ciencia de datos (Data Science) y la minería de datos (Data Mining). La diferencia entre ambos conceptos es más sutil: la ciencia de datos es el conjunto de principios y fundamentos que guían la extracción de conocimiento a partir de los datos (esos patrones o modelos en los datos de los que hablábamos antes), y que engloba aspectos que provienen de la computación y la informática, de la matemática y estadística, y también por supuesto del campo de aplicación en el que queramos extraer conocimiento de los datos. Partiendo de esta definición, la minería de datos o Data Mining sería la extracción de dicho conocimiento a través de herramientas y tecnologías y siguiendo un cierto proceso de extracción y análisis de datos, basándose todos ellos en los principios y fundamentos de la ciencia de datos.
Es en este punto en el que podemos integrar el Big Data como un conjunto de tecnologías específicas (de entre las utilizadas en Data Mining o Business Intelligence) que nos facilitan el procesamiento y análisis de datos cuando su volumen es tal que excede las capacidades de las máquinas de uso convencional. Este es el problema al que se enfrentó Google en su día cuando creó herramientas que le permitieron resolver de manera eficiente el análisis de grandes volúmenes de datos de manera distribuida entre diferentes máquinas trabajando en paralelo cada una con parte de dichos datos, problema que como hemos visto ha ido dando pie a todo un conjunto de herramientas que han ido acercando a más y más público las capacidades del Big Data.
Este terreno de la analítica predictiva es donde se mueven términos como la ciencia de datos (Data Science) y la minería de datos (Data Mining). La diferencia entre ambos conceptos es más sutil: la ciencia de datos es el conjunto de principios y fundamentos que guían la extracción de conocimiento a partir de los datos (esos patrones o modelos en los datos de los que hablábamos antes), y que engloba aspectos que provienen de la computación y la informática, de la matemática y estadística, y también por supuesto del campo de aplicación en el que queramos extraer conocimiento de los datos. Partiendo de esta definición, la minería de datos o Data Mining sería la extracción de dicho conocimiento a través de herramientas y tecnologías y siguiendo un cierto proceso de extracción y análisis de datos, basándose todos ellos en los principios y fundamentos de la ciencia de datos.
Es en este punto en el que podemos integrar el Big Data como un conjunto de tecnologías específicas (de entre las utilizadas en Data Mining o Business Intelligence) que nos facilitan el procesamiento y análisis de datos cuando su volumen es tal que excede las capacidades de las máquinas de uso convencional. Este es el problema al que se enfrentó Google en su día cuando creó herramientas que le permitieron resolver de manera eficiente el análisis de grandes volúmenes de datos de manera distribuida entre diferentes máquinas trabajando en paralelo cada una con parte de dichos datos, problema que como hemos visto ha ido dando pie a todo un conjunto de herramientas que han ido acercando a más y más público las capacidades del Big Data.
No hay comentarios:
Publicar un comentario