Respuesta a: Aprendizajes de la sección “Profile the data” del módulo “Prepare the data”

Gianfranco
Participante

    Identificar "data anomalies"

    En esta sección aprendí a qué debemos establecer un método propio para identificar los datos "outliers" o datos que se salen del rango común. Una manera de hacerlo es a través de un gráfico de dispersión. Una vez encontrado estos datos outliers, es trabajo del analista validarlos.

    Examinar las "data structures"

    Cuando los datos son extraídos de una base de datos SQL, estos pueden incluir columnas con valores de "table" o "value". Table: tabla anidada por fila; value: muestra un registro por fila.

    Interrogar las "column properties"

    Power query permite el análisis de los datos por columna a través de las siguientes vistas:

    Column quality: Valida los errores, vacíos y correctos.

    Column distribution: Muestra la cantidad de valores de tipo distinct y unique. Distinct: cantidad de valores diferentes; unique: cantidad de valores únicos (no se repiten).

    Interrogar las "data statistics"

    Power query permite hacer un análisis estadístico por columna a través de la vista:

    Column profile: Muestra datos estadísticos como: Valor mínimo, valor máximo, promedio, desviación estándar y un gráfico de distribución.