Respuesta a: Aprendizajes de la sección “Profile the data” del módulo “Prepare the data”

Andrea
Participante

    Hola!

    He aprendido lo siguiente:

    Identificar anomalías: estas pueden deberse a mala recopilación o puede ser un fenómeno real. En ambos casos hay que explorar más, para corregirlo o para averiguar la razón. Ayudas: diagramas, tablas para visualizar los outliers
    Data Structures: Tener cuidado del tipo de datos que se asigna a cada columna y que coincida entre las distintas tablas para que las relaciones no se vean afectadas. Columnas que tienen registros tipo "Tabla" o Value" que conecta con una tabla que se puede expandir o un valor que se puede ver.
    Propiedades de las columnas :Evaluar los datos. Cuando mayor cantidad de valores únicos haya, mayor será el peso del archivo, debido al método de compresión que tiene PBI. Hay métodos para hacer que un archivo de PBI no pese tanto.

    Las vistas de column profile, distribution and quality son muy útiles para identificar outliers, NAN o algún otro patrón sin necesidad de hacer visualizaciones.
    Gracias!