Cabecera personalizada

El blog de Mikel Niño
Industria 4.0, Big Data Analytics, emprendimiento digital y nuevos modelos de negocio

CRISP-DM: Fase de “Comprensión de los datos” (Data Understanding)

<< CRISP-DM: Comprensión del negocio

En esta fase el objetivo principal es poder hacer una captura inicial de los datos a analizar para familiarizarse con ellos, identificar problemas de calidad en los mismos, detectar subconjuntos de los datos que pudieran ser interesantes para formular hipótesis específicas que validar posteriormente con el análisis, e incluso identificar las primeras claves del conocimiento que se puede extraer de los datos.

Las principales tareas que engloba son las siguientes:

- Capturar datos iniciales. Hacerse con los datos (o, primeramente, con la posibilidad de acceder a los mismos) que se han identificado dentro de los recursos clave del proyecto. Se debe realizar una caracterización de los datasets, sus localizaciones, los métodos usados para conseguirlos y los problemas encontrados y su resolución.

- Describir los datos. Realizar una caracterización general de los datos obtenidos: su formato, cantidad (número de registros y campos) y cualquier otra característica descubierta en este primer vistazo general. Esta caracterización debe servir para evaluar si los datos obtenidos satisfacen los requerimientos relevantes a este respecto identificados en la fase anterior.

- Explorar los datos. Realizar un análisis preliminar de los datos utilizando diferentes herramientas de consulta, visualización y elaboración de informes. En esta exploración nos deberíamos fijar en la distribución de los atributos clave, en las relaciones entre subconjuntos pequeños de los atributos o en las propiedades de determinadas “subpoblaciones” dentro del total de los datos.

- Verificar la calidad de los datos. En este examen de la calidad de los datos deberíamos fijarnos en cuestiones como las siguientes: si están completos los datos (cubren todos los casos que se requieren), si son correctos, cómo de frecuentes son los errores, si hay missing values (cómo se representan, donde y con qué frecuencia ocurren), etc.

No hay comentarios:

Publicar un comentario