Cabecera personalizada

El blog de Mikel Niño
Emprendimiento digital, startups, Big Data Analytics y nuevos modelos de negocio

Repaso de diferentes perspectivas para entender la “ciencia de datos” (data science)

En anteriores entradas del blog hemos revisado el desarrollo del concepto de “ciencia de datos” (data science) y cómo su origen se remonta a principios de milenio con la propuesta de William S. Cleveland de revisión de las áreas técnicas en torno a la Estadística para adecuarse mejor a las nuevas prácticas de análisis de datos y al desarrollo del data mining. Sin embargo, no es hasta bastantes años después, y en paralelo a la eclosión del Big Data, cuando el concepto de ciencia de datos adquiere mayor relevancia. El Data Science Venn Diagram” elaborado en 2010 por Drew Conway y publicado en su blog en 2013 supone un hito a reseñar de cara a dar a conocer dicho concepto y las áreas que integra.

Desde su publicación el diagrama de Conway se viene utilizando como recurso fundamental en toda presentación que aborde la data science y la práctica del análisis de datos. De todas maneras, la popularidad del diagrama ha llevado pareja un conjunto de revisiones y aportaciones para enriquecer desde diferentes perspectivas el esquema que presenta. David Taylor recoge los principales ejemplos de estas revisiones en la interesante entrada “Battle of the Data Science Venn Diagrams” publicada en su blog el pasado mes de septiembre.

Este repaso de diagramas introduce muy diversas perspectivas (alguna de ellas con buenas dosis de sentido del humor) y, a pesar de sus diferencias, cada una de ellas incorpora elementos que de una manera u otra destacan la multidisciplinaridad de este campo. Tanto es así que el primer diagrama recogido en esta recopilación tras el ya citado de Conway es una propuesta de Brendan Tierney que recupera un diagrama explicativo sobre minería de datos que en realidad data de ¡1998! (lo cual da que pensar sobre cómo en este campo se sigue tratando de “reinventar” ideas y conceptos ya consolidados desde hace décadas) y añade una serie de elementos para hacer hincapié en esa integración de disciplinas.

Del resto de propuestas recogidas en este repaso, quiero destacar la de Stephan Kolassa publicada en noviembre de 2015 en el sitio web StackExchange. Más allá de la elección de las etiquetas para denominar a cada intersección del diagrama (y de que Kolassa incluye en esa publicación ¡el código en lenguaje R para generar el diagrama!), me gustaría llamar la atención sobre la inclusión de la componente “Comunicación”, una dimensión que veo destacada cada vez con más frecuencia en diversas fuentes como parte fundamental del desempeño del científico de datos para poder capturar los elementos relevantes que configuran los objetivos y requisitos del análisis y para poder dar a entender las conclusiones y la utilidad de los resultados del mismo.

No hay comentarios:

Publicar un comentario