Cabecera personalizada

El blog de Mikel Niño
Emprendimiento digital, startups, Big Data Analytics y nuevos modelos de negocio

CRISP-DM: Metodología para proyectos de Data Mining


Del mismo modo que para la gestión de proyectos existen referencias metodológicas como la PMBoK Guide del Project Management Institute (a modo de compendio de buenas prácticas industriales en el desempeño de dicha tarea), en el campo específico del Data Mining también contamos con modelos que nos aportan una pauta metodológica para un mejor desarrollo de dichos proyectos. El ejemplo más relevante es la metodología CRISP-DM (CRoss-Industry Standard Process for Data Mining), que aporta un modelo de referencia cuyo origen y claves principales vamos a revisar en esta entrada.

La metodología CRISP-DM fue creada como resultado de un proyecto en colaboración entre representantes de diferentes sectores industriales, basándose en su experiencia práctica desarrollando proyectos de Data Mining. El proyecto nació en 1996 liderado por un consorcio de tres empresas, Daimler-Benz (posteriormente DaimlerChrysler), ISL (posteriormente SPSS) y NCR, y financiado por la Comisión Europea. Tras sucesivas reuniones con otros profesionales del mismo campo, sesiones de trabajo y diversas implantaciones piloto, el proyecto concluyó en 1999 con un primer borrador del modelo de referencia, que posteriormente fue revisado hasta elaborar su primera versión completa (CRISP-DM 1.0) publicada en 2000.

Al ser concebida como una metodología independiente de campos de aplicación, herramientas tecnológicas o sectores industriales concretos, su adopción para la llevanza de proyectos de Data Mining ha sido más extendida que otras alternativas. De hecho, aunque desde la publicación de la versión 1.0 no han terminado de cuajar las iniciativas por revisarla y generar una versión actualizada, en la actualidad se sigue citando como la metodología más frecuentemente utilizada para gestionar proyectos de Data Mining.

El siguiente diagrama muestra las fases principales dentro del modelo de referencia CRISP-DM:

Fases del modelo de referencia CRISP-DM (Fuente: CRISP-DM 1.0)

Hay que matizar que las flechas que interrelacionan las diferentes fases del modelo representan las dependencias más relevantes entre ellas y que se producen con mayor frecuencia en estos proyectos, y no tanto una secuencia temporal estrictamente hablando. En todo caso, podemos observar la fuerte dependencia mutua y existente entre la Comprensión del Negocio y la Comprensión de los Datos ya que, como ya hemos visto anteriormente, la necesidad de negocio y el activo de datos a explotar son dos de los aspectos clave a analizar en el modelado de proyectos de negocio en este campo. En el diagrama también merece ser destacado el círculo exterior en forma de ciclo, que denota la naturaleza incremental de la metodología y en la que la comprensión y modelado de los diferentes elementos va aumentando en sucesivas iteraciones y en función de los resultados obtenidos de los análisis anteriores.

No hay comentarios:

Publicar un comentario