[Visita guiada] Big Data: origen y tecnologías principales

En esta visita guiada por el blog agrupo las entradas que repasan el origen del Big Data y varias de las principales tecnologías desarrolladas desde entonces:

Para comenzar, ten a mano el siguiente cronograma de antecedentes, origen y desarrollo del Big Data [ver entrada], que te será de utilidad a modo de mapa de la visita guiada
Revisa la definición de los principales términos clave en torno al análisis de datos [ver entrada], conceptos que iremos desarrollando a lo largo de la visita guiada. Repasa también la evolución histórica de la relevancia que han tenido dichos términos [ver entrada]
Entiende cómo se relacionan los conceptos de analítica descriptiva, predictiva o prescriptiva con los términos anteriores [ver entrada], y conoce dónde reside el valor adicional que la analítica predictiva proporciona respecto a la descriptiva [ver entrada]
Conoce los hitos principales en del desarrollo del concepto de “Ciencia de Datos” o “Data Science” [ver entrada] y, en particular, la reflexión que motivó el origen de dicho concepto [ver entrada]
Sitúa el Big Data dentro del campo de la Ciencia de Datos y la analítica para extraer conocimiento de los datos [ver entrada 1] [ver entrada 2]
Conoce cuál es el origen de las tecnologías Big Data: el modelo MapReduce ideado por Google [ver entrada], su implementación de código abierto Apache Hadoop [ver entrada] y el concepto de sistema de ficheros distribuidos en el que se basan estas soluciones [ver entrada]
Revisa también algunos enfoques alternativos al modelo MapReduce para el procesamiento de Big Data [ver entrada]
Recorre algunas de las herramientas que componen el ecosistema en torno a Apache Hadoop, también inspiradas en investigaciones y desarrollos de Google [ver entrada]
Profundiza en dos de dichas herramientas que facilitan el procesamiento masivo de datos sobre Apache Hadoop mediante lenguajes con mayor nivel de abstracción: Apache Hive [ver entrada] y Apache Pig [ver entrada]
Conoce la motivación que origina la creación de Apache Spark, el “sucesor” de Apache Hadoop más relevante en la actualidad, y los fundamentos en que se basa [ver entrada]. En particular, entiende las claves principales de los "Resilient Distributed Datasets" (RDD) en los que se fundamenta Spark [ver entrada]
Revisa también una de las principales evoluciones internas que ha sufrido Apache Hadoop, su nuevo gestor interno de tareas y recursos, YARN [ver entrada], para mejorar su adaptación a diversos casos de uso
Conoce el origen de herramientas como Apache Storm para el procesamiento de fuentes continuas (“streams”) de datos [ver entrada], y cómo el procesamiento de datos tanto en tiempo real como en diferido se integra en la Arquitectura Lambda [ver entrada 1][ver entrada 2]
Entiende por qué las técnicas de aprendizaje automático (“Machine Learning”) encuentran en el Big Data el apoyo perfecto para desarrollar todo su potencial [ver entrada], teniendo claro al mismo tiempo que no toda aplicación de minería de datos requiere de Big Data [ver entrada]

Cabecera personalizada

[Visita guiada] Big Data: origen y tecnologías principales

No hay comentarios:

Publicar un comentario