Cabecera personalizada

El blog de Mikel Niño
Industria 4.0, Big Data Analytics, emprendimiento digital y nuevos modelos de negocio
Mostrando entradas con la etiqueta hdfs. Mostrar todas las entradas
Mostrando entradas con la etiqueta hdfs. Mostrar todas las entradas

My paper "Understanding Big Data: antecedents, origin and later development"

[Open access link to the paper at the end]

After the lecture I gave last June to open the conference held in San Sebastián on Big Data applications for businesses, the editors of the journal "DYNA New Technologies" contacted me to ask for a collaboration paper, where I could gather the key ideas presented during my lecture. After organizing my notes using a temporal guiding thread, and after the usual reviewing milestones, my paper "Understanding Big Data: antecedents, origin and later development" was published.

Mi artículo “Entendiendo el Big Data: antecedentes, origen y desarrollo posterior”

[El enlace para acceder al artículo se encuentra al final de esta entrada]

Tras la ponencia que impartí el pasado mes de junio en la jornada organizada en San Sebastián sobre Big Data para los negocios, los responsables de la revista técnico-científica “DYNA New Technologies” se pusieron en contacto conmigo para solicitarme una colaboración en forma de artículo, donde recogiese las ideas principales de lo expuesto en dicha ponencia. De la organización de mis notas y su desarrollo en un hilo conductor histórico, y tras pasar los convenientes ciclos de revisión durante los últimos meses, nace el artículo “Entendiendo el Big Data: antecedentes, origen y desarrollo posterior” cuya reciente publicación anuncio y comparto en esta entrada de blog.

[Visita guiada] Big Data: origen y tecnologías principales

En esta visita guiada por el blog agrupo las entradas que repasan el origen del Big Data y varias de las principales tecnologías desarrolladas desde entonces:
  1. Para comenzar, ten a mano el siguiente cronograma de antecedentes, origen y desarrollo del Big Data [ver entrada], que te será de utilidad a modo de mapa de la visita guiada
  2. Revisa la definición de los principales términos clave en torno al análisis de datos [ver entrada], conceptos que iremos desarrollando a lo largo de la visita guiada. Repasa también la evolución histórica de la relevancia que han tenido dichos términos [ver entrada]

¿Es realmente Big Data todo el "Big Data"?

A estas alturas creo que es innegable la enorme popularidad que está alcanzando el concepto de Big Data, ya no sólo dentro del ámbito exclusivamente tecnológico o profesional, sino también en los medios de comunicación generalistas donde de cuando en cuando nos encontramos con noticias referidas a este tema. Sin embargo, tanta repercusión debería ser merecedora de un mínimo pero riguroso análisis para comprobar si realmente “es Big Data todo lo que reluce” en lo que se nos cuenta como tal. Un breve repaso a algunos de los términos e hitos clave que hemos ido revisando en el blog nos puede ayudar en esta tarea.

Apache Pig: consulta y procesamiento de Big Data semi-estructurado

Otra de las herramientas que rodean a Apache Hadoop para facilitar el procesamiento de Big Data es Apache Pig, una plataforma de código abierto inspirada en lo que Google concibió y divulgó en su día como Sawzall. En cierta manera podríamos categorizarla en el mismo grupo que Apache Hive, ya que Pig también nos permite definir una serie de transformaciones y consultas sobre Big Data sin tener que programar directamente sobre el modelo MapReduce, sino manejando un lenguaje (en este caso Pig Latin) que nos permite trabajar en un nivel más abstracto, aunque Hive y Pig difieren en la manera en que realizan ese modelado y transformación abstractos de los datos.

Apache Hive: una visión "más SQL" del procesamiento de Big Data

Ya hemos comentado anteriormente que son muchas y diversas herramientas las que han ido surgiendo en la última década para complementar a Apache Hadoop, facilitando y potenciando de esa manera el procesamiento de Big Data. En esta entrada vamos a tratar con algo más de detalle una de estas herramientas, Apache Hive, que acerca una visión relacional y el uso de lenguajes de procesamiento de datos tan extendidos como SQL al trabajo con grandes volúmenes de datos.

¿Por qué se reduce la barrera económica para acceder a las tecnologías Big Data?

En el análisis que hacíamos de los aspectos clave de los negocios basados en Big Data comentábamos cómo, en el caso concreto de la tecnología, la barrera económica se había hecho menos exigente con estos nuevos desarrollos y con las soluciones asequibles de cloud computing existentes. En primera instancia uno podría pensar que es un cierto contrasentido ya que, si de lo que se trata es de procesar unas cantidades de datos tan grandes que las máquinas convencionales no pueden explotarlos eficientemente, la intuición parece decirnos que lo que entonces haría falta es invertir en “supermáquinas” (más potentes y más caras) para conseguirlo. Vamos a ver como las tecnologías Big Data se basan en un esquema de solución que evita ese inconveniente.

Recopilación de tutoriales online para Apache Hadoop

Siendo Apache Hadoop, como hemos visto, una de las piezas fundamentales dentro de todo el conjunto de tecnologías desarrolladas en torno al Big Data, desde su aparición ha alcanzado la suficiente madurez y popularidad como para dar pie a numerosos recursos online que nos guíen y faciliten el acercamiento a dicha herramienta. En esta entrada recopilo algunos de esos recursos y tutoriales online para nuestros primeros pasos con Apache Hadoop.

Claves del funcionamiento de un sistema de ficheros distribuidos (GFS, HDFS)

La definición del framework MapReduce abrió la puerta a toda una serie de innovaciones que han ido marcando la pauta de lo que hoy etiquetamos como Big Data. La principal virtud de MapReduce era que resolvía muchos de los retos a los que debía hacer frente el procesamiento de enormes volúmenes de datos (causados por las limitaciones en las capacidades de almacenamiento y transmisión de datos), ofreciendo un framework en el que todas esas complejidades quedaban resueltas y el programador de aplicaciones sólo tenía que preocuparse de concretar el propósito de las funciones Map y Reduce. La pieza clave de ese entramado en el que se soporta MapReduce (y que resuelve los citados retos sin que el programador tenga que ocuparse de ello) es el uso de un sistema de ficheros distribuidos (GFS en el caso de Google, HDFS en el caso de Apache Hadoop).

Cómo surgió Apache Hadoop, la implementación de código abierto de MapReduce

En la entrada anterior comentamos cómo la divulgación por parte de Google del modelo de programación MapReduce marcó el punto de partida de una serie de desarrollos e innovaciones que han supuesto los principales avances tecnológicos en torno al Big Data. En particular, los artículos que detallaban el funcionamiento del modelo MapReduce y del sistema distribuido de ficheros en el que se soportaba inspiraron a Doug Cutting a iniciar una serie de desarrollos open-source con licencia Apache que hacían “tangible” lo descrito en dichos artículos. Este fue el inicio del camino que llevó a Cutting a crear Apache Hadoop.