Los algoritmos de Machine Learning siempre han tenido que hacer frente a un problema derivado de las muestras de datos de tamaño reducido, ya que si no se dispone de muchos datos tendremos que enfrentarnos a una difícil elección: aprovecharlos todos para el entrenamiento del algoritmo (lo que podría llevar a obtener modelos demasiado ajustados a la muestra -overfitting- y poco aplicables a nuevos casos), o bien reservar parte del conjunto de datos sólo para prueba y medición de la precisión del algoritmo (lo que dejaría una muestra de entrenamiento aún más reducida, con el riesgo de construir modelos muy poco significativos). El Big Data les ofrece el contexto perfecto para librarse de ese problema, ya que cuanto mayor sea el volumen de datos con el que contemos de partida (un caso con el que nos podremos encontrar con cierta facilidad en una aplicación de Big Data), más flexibilidad tendremos para elegir la mejor estrategia que optimice el rendimiento de los algoritmos de Machine Learning.
Por otra parte, muchos de los algoritmos de Machine Learning tienen la suficiente flexibilidad como para generar modelos que pueden expresar una interrelación más compleja entre las variables que medimos en nuestros datos, o incluso poder priorizar mejor, de entre todas las variables que podemos tener registradas, cuáles son las más significativas y que deben ser tenidas en cuenta en la construcción del modelo predictivo, frente a las que aportan más ruido o no son verdaderamente significativas, algo tremendamente útil en un contexto donde podemos llegar a integrar muchas (demasiadas) variables.
Este interesante artículo en el blog de la aceleradora Andreessen-Horowitz abunda en esta idea de "maridar" el Big Data y el Machine Learning. De hecho, el artículo sostiene la tesis de que, en el mundo del Big Data, se viene produciendo en los últimos años una evolución respecto a qué fase del proceso de explotación de datos es la que está recibiendo una mayor atención por parte de investigadores, desarrolladores y usuarios de este tipo de soluciones, pasando de un foco centrado en las herramientas para almacenamiento e integración de datos a un foco centrado en las herramientas que nos permiten hacer un análisis predictivo basado en los patrones encontrados en los datos.
El artículo también nos pone sobre la pista de algunos criterios que podemos utilizar para diferenciar terminología de uso común como Business Intelligence de lo que realmente supone la idea de Big Data Analytics o Predictive Analytics: mientras que el primero se centra sobre todo en interpretar el pasado gracias a agregaciones de datos que pueden ser inspeccionadas y consolidadas en diversos tipos de informes y visualizaciones, el segundo aprovecha las técnicas de análisis ofrecidas por el Machine Learning para poder añadir ese componente predictivo que nos permita hacer detección temprana de las situaciones que queramos prevenir y controlar, y así adelantarnos a los acontecimientos.
Por otra parte, muchos de los algoritmos de Machine Learning tienen la suficiente flexibilidad como para generar modelos que pueden expresar una interrelación más compleja entre las variables que medimos en nuestros datos, o incluso poder priorizar mejor, de entre todas las variables que podemos tener registradas, cuáles son las más significativas y que deben ser tenidas en cuenta en la construcción del modelo predictivo, frente a las que aportan más ruido o no son verdaderamente significativas, algo tremendamente útil en un contexto donde podemos llegar a integrar muchas (demasiadas) variables.
Este interesante artículo en el blog de la aceleradora Andreessen-Horowitz abunda en esta idea de "maridar" el Big Data y el Machine Learning. De hecho, el artículo sostiene la tesis de que, en el mundo del Big Data, se viene produciendo en los últimos años una evolución respecto a qué fase del proceso de explotación de datos es la que está recibiendo una mayor atención por parte de investigadores, desarrolladores y usuarios de este tipo de soluciones, pasando de un foco centrado en las herramientas para almacenamiento e integración de datos a un foco centrado en las herramientas que nos permiten hacer un análisis predictivo basado en los patrones encontrados en los datos.
El artículo también nos pone sobre la pista de algunos criterios que podemos utilizar para diferenciar terminología de uso común como Business Intelligence de lo que realmente supone la idea de Big Data Analytics o Predictive Analytics: mientras que el primero se centra sobre todo en interpretar el pasado gracias a agregaciones de datos que pueden ser inspeccionadas y consolidadas en diversos tipos de informes y visualizaciones, el segundo aprovecha las técnicas de análisis ofrecidas por el Machine Learning para poder añadir ese componente predictivo que nos permita hacer detección temprana de las situaciones que queramos prevenir y controlar, y así adelantarnos a los acontecimientos.
No hay comentarios:
Publicar un comentario