Cabecera personalizada

El blog de Mikel Niño
Emprendimiento digital, startups, Big Data Analytics y nuevos modelos de negocio

[Visita guiada] Big Data: origen y tecnologías principales

En esta visita guiada por el blog agrupo las entradas que repasan el origen del Big Data y varias de las principales tecnologías desarrolladas desde entonces:
  1. Para comenzar, ten a mano el siguiente cronograma de antecedentes, origen y desarrollo del Big Data [ver entrada], que te será de utilidad a modo de mapa de la visita guiada
  2. Revisa la definición de los principales términos clave en torno al análisis de datos [ver entrada], conceptos que iremos desarrollando a lo largo de la visita guiada. Repasa también la evolución histórica de la relevancia que han tenido dichos términos [ver entrada]
  3. Entiende cómo se relacionan los conceptos de analítica descriptiva, predictiva o prescriptiva con los términos anteriores [ver entrada], y conoce dónde reside el valor adicional que la analítica predictiva proporciona respecto a la descriptiva [ver entrada]
  4. Conoce los hitos principales en del desarrollo del concepto de “Ciencia de Datos” o “Data Science” [ver entrada] y, en particular, la reflexión que motivó el origen de dicho concepto [ver entrada]
  5. Sitúa el Big Data dentro del campo de la Ciencia de Datos y la analítica para extraer conocimiento de los datos [ver entrada 1] [ver entrada 2]
  6. Conoce cuál es el origen de las tecnologías Big Data: el modelo MapReduce ideado por Google [ver entrada], su implementación de código abierto Apache Hadoop [ver entrada] y el concepto de sistema de ficheros distribuidos en el que se basan estas soluciones [ver entrada]
  7. Revisa también algunos enfoques alternativos al modelo MapReduce para el procesamiento de Big Data [ver entrada]
  8. Recorre algunas de las herramientas que componen el ecosistema en torno a Apache Hadoop, también inspiradas en investigaciones y desarrollos de Google [ver entrada]
  9. Profundiza en dos de dichas herramientas que facilitan el procesamiento masivo de datos sobre Apache Hadoop mediante lenguajes con mayor nivel de abstracción: Apache Hive [ver entrada] y Apache Pig [ver entrada]
  10. Conoce la motivación que origina la creación de Apache Spark, el “sucesor” de Apache Hadoop más relevante en la actualidad, y los fundamentos en que se basa [ver entrada]. En particular, entiende las claves principales de los "Resilient Distributed Datasets" (RDD) en los que se fundamenta Spark [ver entrada]
  11. Revisa también una de las principales evoluciones internas que ha sufrido Apache Hadoop, su nuevo gestor interno de tareas y recursos, YARN [ver entrada], para mejorar su adaptación a diversos casos de uso
  12. Conoce el origen de herramientas como Apache Storm para el procesamiento de fuentes continuas (“streams”) de datos [ver entrada], y cómo el procesamiento de datos tanto en tiempo real como en diferido se integra en la Arquitectura Lambda [ver entrada 1][ver entrada 2]
  13. Entiende por qué las técnicas de aprendizaje automático (“Machine Learning”) encuentran en el Big Data el apoyo perfecto para desarrollar todo su potencial [ver entrada], teniendo claro al mismo tiempo que no toda aplicación de minería de datos requiere de Big Data [ver entrada]

No hay comentarios:

Publicar un comentario