La lectura del artículo “Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”, publicado por William S. Cleveland en los Laboratorios Bell en 2001, nos aporta una serie de claves fundamentales para entender cuál es la motivación tras el origen del concepto de “Data Science” y su desarrollo y popularización durante la última década, estrechamente ligado a la repercusión del Big Data en particular y el Data Mining en general en el mundo de los negocios.
Cleveland proponía en su artículo una revisión de las áreas técnicas en torno a la Estadística para adecuarse mejor a las prácticas de análisis de datos que venían desarrollándose en la época, principalmente con el desarrollo del Data Mining y su aplicación en diferentes contextos a lo largo de la década anterior. Este plan de acción describía las diferentes áreas en las que debería enfocarse el desarrollo de la disciplina de “Data Science”, en principio con la mente puesta en centros universitarios, pero extensible también a otros centros de investigación públicos o privados.
Al describir dichas áreas y ponderar los recursos que deberían destinarse a desarrollar cada una de ellas, podemos ver cómo las siguientes disciplinas ocupan un lugar destacado en el plan de acción:
- Colaboraciones con diferentes áreas de aplicación para poder desarrollar análisis de datos ligados a esos diversos contextos, de manera que los problemas se planteen en términos de estas áreas.
- Métodos estadísticos relacionados con estimaciones y distribuciones, así como con la construcción de modelos a partir de los datos.
- Mayores sinergias con el mundo de la informática y la computación, donde se venían desarrollando los mayores avances ligados al mundo del análisis de datos: sistemas de bases de datos, mejoras en hardware y software, desarrollo de técnicas de Data Mining, etc.
Uno de los artículos referenciados en este trabajo de Cleveland, el informe titulado “The Role of Statistics in the Data Revolution” y elaborado en esa misma época por Jerome H. Friedman en la Universidad de Stanford, abunda en esta última línea. Dicho informe ponía en contexto los avances que se habían ido produciendo en los años finales del pasado milenio en torno al Data Mining y a la progresiva informatización de la recolección y análisis de datos, y planteaba qué dicho contexto presentaba una encrucijada importante en el mundo de la Estadística, de manera que una posible salida (por la que Cleveland apostaba en su plan de acción) era la búsqueda de sinergias con el mundo de la computación y la informática, más allá de las matemáticas.
Aunque el concepto de “Data Science” y su definición han ido sufriendo ligeras modificaciones en la última década, los citados trabajos son los que han sentado las bases que nos permiten entender mejor el desarrollo de la “Data Science” como la integración de principios de las diferentes disciplinas (estadística y matemáticas, informática y computación, área específica de aplicación) que fundamentan la práctica moderna del análisis de datos.
Al describir dichas áreas y ponderar los recursos que deberían destinarse a desarrollar cada una de ellas, podemos ver cómo las siguientes disciplinas ocupan un lugar destacado en el plan de acción:
- Colaboraciones con diferentes áreas de aplicación para poder desarrollar análisis de datos ligados a esos diversos contextos, de manera que los problemas se planteen en términos de estas áreas.
- Métodos estadísticos relacionados con estimaciones y distribuciones, así como con la construcción de modelos a partir de los datos.
- Mayores sinergias con el mundo de la informática y la computación, donde se venían desarrollando los mayores avances ligados al mundo del análisis de datos: sistemas de bases de datos, mejoras en hardware y software, desarrollo de técnicas de Data Mining, etc.
Uno de los artículos referenciados en este trabajo de Cleveland, el informe titulado “The Role of Statistics in the Data Revolution” y elaborado en esa misma época por Jerome H. Friedman en la Universidad de Stanford, abunda en esta última línea. Dicho informe ponía en contexto los avances que se habían ido produciendo en los años finales del pasado milenio en torno al Data Mining y a la progresiva informatización de la recolección y análisis de datos, y planteaba qué dicho contexto presentaba una encrucijada importante en el mundo de la Estadística, de manera que una posible salida (por la que Cleveland apostaba en su plan de acción) era la búsqueda de sinergias con el mundo de la computación y la informática, más allá de las matemáticas.
Aunque el concepto de “Data Science” y su definición han ido sufriendo ligeras modificaciones en la última década, los citados trabajos son los que han sentado las bases que nos permiten entender mejor el desarrollo de la “Data Science” como la integración de principios de las diferentes disciplinas (estadística y matemáticas, informática y computación, área específica de aplicación) que fundamentan la práctica moderna del análisis de datos.
No hay comentarios:
Publicar un comentario