Cabecera personalizada

El blog de Mikel Niño
Industria 4.0, Big Data Analytics, emprendimiento digital y nuevos modelos de negocio
Mostrando entradas con la etiqueta hiveql. Mostrar todas las entradas
Mostrando entradas con la etiqueta hiveql. Mostrar todas las entradas

Apache Pig: consulta y procesamiento de Big Data semi-estructurado

Otra de las herramientas que rodean a Apache Hadoop para facilitar el procesamiento de Big Data es Apache Pig, una plataforma de código abierto inspirada en lo que Google concibió y divulgó en su día como Sawzall. En cierta manera podríamos categorizarla en el mismo grupo que Apache Hive, ya que Pig también nos permite definir una serie de transformaciones y consultas sobre Big Data sin tener que programar directamente sobre el modelo MapReduce, sino manejando un lenguaje (en este caso Pig Latin) que nos permite trabajar en un nivel más abstracto, aunque Hive y Pig difieren en la manera en que realizan ese modelado y transformación abstractos de los datos.

Apache Hive: una visión "más SQL" del procesamiento de Big Data

Ya hemos comentado anteriormente que son muchas y diversas herramientas las que han ido surgiendo en la última década para complementar a Apache Hadoop, facilitando y potenciando de esa manera el procesamiento de Big Data. En esta entrada vamos a tratar con algo más de detalle una de estas herramientas, Apache Hive, que acerca una visión relacional y el uso de lenguajes de procesamiento de datos tan extendidos como SQL al trabajo con grandes volúmenes de datos.