<< CRISP-DM: Comprensión de los datos |
El objetivo principal de esta fase es la construcción, a partir de los datos “en crudo”, del dataset final a utilizar como datos de entrada para las herramientas de modelado. Las tareas englobadas en esta fase (centradas en la limpieza y transformación de los datos) son susceptibles de realizarse repetidas veces y en un orden que dependerá del caso concreto.
Las principales tareas contempladas en esta fase son:
- Selección de datos. Decisión sobre los datos a emplear en el análisis, usando criterios relativos a la relevancia para los objetivos, la calidad de los datos o restricciones técnicas. La selección a realizar se refiere tanto a los atributos o campos de los registros del dataset como a los registros en sí.
- Limpieza de datos. Se debe “elevar” el nivel de calidad de los datos al requerido por las técnicas de análisis. Esta tarea incluye la inserción de valores por defecto adecuados, o el uso de modelado para estimar los valores ausentes (missing values). Se deben documentar las decisiones y acciones para resolver los problemas de calidad de datos que ya fueron identificados en la fase anterior.
- Construcción de datos. A partir de los datos originalmente capturados, se generan atributos derivados, nuevos registros o valores transformados de atributos existentes, en función de los requerimientos para preparar la entrada a las herramientas de modelado.
- Integración de datos. Esta tarea se enfoca a la combinación de múltiples tablas o registros para crear nuevos, uniendo por ejemplo datos sobre un mismo objeto pero que se encuentran dispersos en diferentes fuentes, o realizando agregaciones que resumen información contenida en varios registros.
- Dar formato a datos. Estas transformaciones se refieren a modificaciones sintácticas que se hacen sobre los datos, sin alterar su significado pero que pueden ser requeridas por la herramienta de modelado a utilizar. Por ejemplo, puede que haya requisitos en el orden de los atributos, o que la herramienta de modelado requiera que los registros estén ordenados según el atributo resultado. En otros casos es necesario presentarlos en un orden más aleatorio del que vienen inicialmente en el dataset (donde suelen tener algún orden determinado).
No hay comentarios:
Publicar un comentario