Cabecera personalizada

El blog de Mikel Niño
Emprendimiento digital, startups, Big Data Analytics y nuevos modelos de negocio

El lenguaje de programación R para análisis estadístico y machine learning

El lenguaje de programación R ocupa un lugar destacado entre las herramientas que más menciones y atención reciben en esta vorágine del Big Data. Aunque ya cuenta con bastantes años de recorrido y una considerable popularidad sobre todo entre la comunidad estadística, a medida que diferentes conceptos basados en esta disciplina (sobre todo los algoritmos de aprendizaje automático) se han ido integrando dentro del concepto de Big Data Analytics, el uso de R se ha hecho más y más popular, gracias también a la comunidad de desarrolladores y usuarios tan activa que tiene detrás y que permite que sus funcionalidades se mantengan al día de las últimas tendencias.

R tiene su origen en un entorno de análisis estadístico (bautizado como S) creado internamente en los Bell Labs en los años 70, con John Chambers a la cabeza de dicho proyecto. Años después, en la década de los 90, Ross Ihaka y Robert Gentleman de la Universidad de Auckland (Nueva Zelanda) crearon R como un “dialecto” de S, es decir, una implementación concreta de S añadiendo determinadas funcionalidades. Dependiendo del aspecto de R en el que nos centremos podemos verlo como lenguaje o como entorno, proporcionando por un lado un interfaz para el trabajo de manera interactiva pero también el uso de la programación utilizando el lenguaje para desarrollar nuevas herramientas.

R se distribuye como software libre bajo licencia GNU y es multiplataforma (existen versiones para plataformas Windows, Mac y Linux, y de hecho algunas distribuciones Linux lo llevan incorporado), lo que también ha facilitado su adopción y la existencia de una comunidad tremendamente activa a su alrededor, con constantes desarrollos de nuevas funcionalidades y versiones mejoradas de las existentes. De hecho otra de las características de R es su gran modularidad: el conjunto de funcionalidades de base con las que cuenta una instalación “desde cero” es relativamente ligero, y existen multitud de librerías que implementan unas u otras funcionalidades específicas y con las que iremos ampliando el potencial de nuestro entorno R en aquellos aspectos con los que realmente vayamos a trabajar.

El verdadero potencial de R reside precisamente en esas librerías (algunas ya incorporadas en el sistema base y otras por instalar) que permiten a R destacar sobre otros entornos y lenguajes para análisis estadístico, principalmente en las funcionalidades relacionadas con la manipulación de datos, visualización de gráficas y disponibilidad de algoritmos de aprendizaje automático. De todas maneras no todo es perfecto, ya que la “herencia” de los sistemas antiguos en los que está basado R hace que tenga ciertas limitaciones en cuanto al procesamiento en paralelo y el consumo de memoria para almacenar los datos a procesar. En todo caso, la gran actividad que rodea a R hace que en los últimos años se hayan desarrollado líneas de trabajo orientadas a paliar esas limitaciones e incluso a integrarlo con herramientas como Hadoop (aquí y aquí algunos ejemplos) para el procesamiento eficiente de cantidades masivas de datos.

2 comentarios:

  1. Disculpen, alguien sabe como convertir un script (.R) en ejecutable (.exe) o como se le dice caja negra?

    Saludos

    ResponderEliminar
    Respuestas
    1. Hola, Daniel, este hilo de discusión en la web StackOverflow te puede aportar información al respecto:

      "Compile R script into standalone .exe file?"

      Eliminar