Cabecera personalizada

El blog de Mikel Niño
Emprendimiento digital, startups, Big Data Analytics y nuevos modelos de negocio

CRISP-DM: Fase de “Modelado” (Modeling)

<< CRISP-DM: Preparación de los datos


En esta fase se seleccionan y aplican diferentes técnicas (algoritmos) de modelado, calibrando sus parámetros para conseguir sus valores óptimos. Para un mismo problema de minería de datos tenemos diferentes técnicas susceptibles de ser usadas y, dado que cada una de ellas puede tener requisitos diferentes en la forma en que deben presentarse los datos de entrada, es probable que sea necesario realizar ciclos adicionales de “preparación de los datos”.

Las principales tareas que abarca esta fase son las siguientes:

- Selección de la técnica de modelado. Aunque ya desde el principio del proyecto, en la fase de comprensión del negocio, se realiza una selección preliminar del tipo de técnica a emplear, en este caso la tarea se centra en poner “nombre y apellidos” a la técnica, de entre las diferentes opciones de configuración, versionado, etc. que puede presentar. Además, hay que tener en cuenta que muchas técnicas de modelado funcionan bajo la premisa de unas asunciones específicas sobre los datos (p.ej. distribuciones uniformes, ausencia de missing values, atributos simbólicos para la clase, etc.), por lo que las asunciones realizadas para seleccionar una u otra técnica deben quedar documentadas.

- Diseño de los test. Antes de ponernos a generar un modelo, debemos diseñar el procedimiento según el cual se va a medir la calidad y validez del modelo. Esto abarca la métrica concreta de error que se va a emplear, o la descripción del plan para entrenar y evaluar los modelos, incluyendo el diseño de la separación entre datos de entrenamiento, de testeo y de validación.

- Construcción del modelo. Consiste en la ejecución del algoritmo de modelado seleccionado sobre el dataset preparado siguiendo el procedimiento diseñado. Es importante documentar la parametrización utilizada y la justificación de la elección, así como una descripción del modelo resultante, lo interpretable que resulta y las dificultades para dicha interpretación.

- Evaluación del modelo. Partiendo de la calidad del modelo o modelos obtenidos según las métricas definidas en el procedimiento diseñado, se realiza también una interpretación y contraste preliminares de los modelos según el conocimiento del dominio y los objetivos de éxito planteados en términos de negocio. La conclusión de esta tarea puede implicar una revisión de la tarea de construcción del modelo para cambiar la configuración de los parámetros de la técnica, y así afinar en la calidad del resultado.

No hay comentarios:

Publicar un comentario