La segunda edición de la International Winter School on Big Data, a la que asistí a principios del mes pasado, contó con la más que notable presencia de Jeffrey D. Ullman, toda una personalidad en el campo de la Informática con una dilatada y prolífica carrera a sus espaldas. Además de ser el ponente que abrió la semana con su charla sobre sus investigaciones más recientes en torno a los algoritmos basados en MapReduce, impartió un seminario sobre "Big Data Algorithms that Aren't Machine Learning", en el que repasó los principales contenidos que se encarga de impartir en el curso online "Mining of Massive Datasets" junto con sus colegas de Stanford Jure Leskovec y Anand Rajaraman.
Mi primer contacto con el trabajo de Jeffrey Ullman fue durante mis estudios universitarios, en la época en la que comenzaba a oírse hablar de "eso de la web". Ullman era el coautor del libro que se utilizaba como referencia principal en la asignatura de Compilación, el famoso "libro del dragón". En aquella época la versión más reciente del libro era la primera edición de "Compilers: Principles, Techniques, and Tools", escrita por Alfred V. Aho, Ravi Sethi y el propio Ullman, y que actualmente cuenta ya con una segunda edición publicada en 2006 donde Monica S. Lam es también coautora junto a los tres anteriores. Esta saga de "dragon books" tiene su origen en un libro anterior escrito por Aho y Ullman, "Principles of Compiler Design".
Tras haber realizado durante las últimas décadas múltiples trabajos de referencia en áreas como las bases de datos, la teoría de autómatas y la algorítmica, en la época más reciente su principal foco de trabajo son los algoritmos para procesamiento de grandes volúmenes de datos. En ese sentido, el curso online citado antes, "Mining of Massive Datasets", supone una referencia obligada para quienes quieran profundizar en los orígenes del modelo MapReduce (y su relación con el algoritmo PageRank de Google) y en muchos de los algoritmos principales que se utilizan hoy en día para el procesamiento de Big Data. Dicho curso se deriva del material de las asignaturas que Ullman y sus colegas imparten en la Universidad de Stanford en torno a esta materia, y que tenemos también a nuestra disposición en un completo libro disponible online de manera gratuita, junto con las diapositivas de acompañamiento de cada capítulo.
La parte que imparte Ullman en dicho curso (y en la cual también se basó su seminario dentro de la segunda edición de la "International Winter School on Big Data"), además de explicar el origen y fundamentos del modelo MapReduce, explica con detalle los principales algoritmos que se utilizan para procesar streams masivos de datos en tiempo real, así como algoritmos que procesan estructuras de datos almacenadas como grafos, herramientas todas ellas muy utilizadas en el tratamiento de Big Data en general y en la explotación de información proveniente de la web y las redes sociales en particular.
Portada del "libro del dragón" editado en 1986
Tras haber realizado durante las últimas décadas múltiples trabajos de referencia en áreas como las bases de datos, la teoría de autómatas y la algorítmica, en la época más reciente su principal foco de trabajo son los algoritmos para procesamiento de grandes volúmenes de datos. En ese sentido, el curso online citado antes, "Mining of Massive Datasets", supone una referencia obligada para quienes quieran profundizar en los orígenes del modelo MapReduce (y su relación con el algoritmo PageRank de Google) y en muchos de los algoritmos principales que se utilizan hoy en día para el procesamiento de Big Data. Dicho curso se deriva del material de las asignaturas que Ullman y sus colegas imparten en la Universidad de Stanford en torno a esta materia, y que tenemos también a nuestra disposición en un completo libro disponible online de manera gratuita, junto con las diapositivas de acompañamiento de cada capítulo.
Portada de la 2ª edición de "Mining of Massive Datasets", disponible online
La parte que imparte Ullman en dicho curso (y en la cual también se basó su seminario dentro de la segunda edición de la "International Winter School on Big Data"), además de explicar el origen y fundamentos del modelo MapReduce, explica con detalle los principales algoritmos que se utilizan para procesar streams masivos de datos en tiempo real, así como algoritmos que procesan estructuras de datos almacenadas como grafos, herramientas todas ellas muy utilizadas en el tratamiento de Big Data en general y en la explotación de información proveniente de la web y las redes sociales en particular.
¡Grande Ullman y grande Mikel!
ResponderEliminar