Cómo surgió Apache Hadoop, la implementación de código abierto de MapReduce

En la entrada anterior comentamos cómo la divulgación por parte de Google del modelo de programación MapReduce marcó el punto de partida de una serie de desarrollos e innovaciones que han supuesto los principales avances tecnológicos en torno al Big Data. En particular, los artículos que detallaban el funcionamiento del modelo MapReduce y del sistema distribuido de ficheros en el que se soportaba inspiraron a Doug Cutting a iniciar una serie de desarrollos open-source con licencia Apache que hacían “tangible” lo descrito en dichos artículos. Este fue el inicio del camino que llevó a Cutting a crear Apache Hadoop.

Como cuenta el propio Cutting en esta entrada de su blog publicada en 2009, en la época en que Google publicó los citados artículos, Cutting se encontraba trabajando junto a Mike Cafarella en un proyecto de desarrollo de un motor de búsqueda web (Apache Nutch). Los artículos de Google le sirvieron de inspiración para mejorar dicho desarrollo, construyendo un sistema distribuido de ficheros y una implementación de MapReduce para automatizar el funcionamiento de su buscador (el germen de lo que más adelante serían Hadoop MapReduce y Hadoop Distributed File System -HDFS-).

No sería hasta la incorporación de Cutting a Yahoo en 2006 (lo que le permitió contar con los recursos humanos y materiales necesarios para llevar al proyecto al nivel deseado) que fue posible construir un framework capaz de implementar MapReduce con la capacidad de procesar de manera distribuida el enorme volumen de datos requerido por un gran motor de búsqueda a nivel global. Así nació el framework Apache Hadoop, cuyos módulos principales serían los ya citados HDFS (la implementación open-source del sistema distribuido de ficheros descrito por Google años antes) y Hadoop MapReduce (implementado sobre el mencionado HDFS).

En 2009 Cutting dejó Yahoo para incorporarse a Cloudera, otro de los grandes contribuyentes a los desarrollos open-source en torno al Big Data, pero para entonces Apache Hadoop ya se había convertido en el núcleo de todo un ecosistema de soluciones Big Data, que han ido dando respuesta y haciendo “tangibles” varias de las innovaciones que (sobre todo desde Google) se han ido concibiendo en la última década para dar respuesta al almacenamiento, procesamiento y análisis de grandes volúmenes de datos de manera distribuida.

Cabecera personalizada

Cómo surgió Apache Hadoop, la implementación de código abierto de MapReduce

No hay comentarios:

Publicar un comentario