Aprendizajes de la sección “Profile the data” del módulo “Prepare the data”

Etiquetado: Calidad de datos, Profile Data

dlom
Participante
7 julio 2022 a las 5:00 pm
¿Qué aprendiste en la sección “Profile the data”?
¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?
¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?

Isidre
Espectador
7 julio 2022 a las 5:00 pm
Hola David,

Tal como yo lo veo, el hecho de tener activas cualquiera de las tres opciones de visualización (o las tres a la vez), no va a afectar al rendimiento del modelo ni a su tamaño. Ten en cuenta que cuando estás en Power Query Editor, lo que ves es el resultado del código M que se ejecuta detrás y no es hasta que decides clicar en “Close & Apply” que se cargan las tablas (las que tienen “Enabled Load” activado) al modelo.
Por tanto, una vez estés en el canvas, cuando refresques el modelo, el hecho de que las tres opciones que comentas estén o no activadas no tendrán ninguna incidencia en su rendimiento. Esto es así, tanto en el refresco de los datos de origen, como en las visualizaciones que vayas incorporando al informe.

Otra cosa es como afecte dentro del Power Query Editor estando abierto. Cada una de las opciones requiere un análisis de los datos y sí afectará al tiempo requerido, de la misma manera que si solicitas que este análisis lo limite a las mil primeras filas o la tabla entera.

Dicho esto, una vez cerrado el Power Query Editor, ya no debería tener ninguna incidencia ni en el refresco, ni el rendimiento, ni en el tamaño del pbix.

Espero haber aclarado la duda.

Un saludo.
dlom
Participante
7 julio 2022 a las 5:00 pm
Hola @David. La explicación de @Isidre está muy completa y acertada. Gracias a ambos.
josses
Espectador
7 julio 2022 a las 5:00 pm
Buen día a todos.
Me pareció muy buena la forma de describir las diferencias entre cada una de las vistas para ver las propiedades de los datos de las columnas de cada tabla. También me resultó interesante el ejemplo de utilizar un gráfico para evaluar inicialmente los rangos de los datos, el cual tomaré para aplicar en mis proyectos futuros.
Javl88
Espectador
7 julio 2022 a las 5:00 pm
Buenas tardes,

No había profundizado en que solo muestra las primeras 1,000 líneas, me quedó la duda si son las primeras 1,000 líneas literal de la base o trae un aleatorio de 1,000 líneas, me imaginé una base de datos con 1 millón de registros y que justo las últimas líneas tengan datos erróneos o faltantes, por lo regular me he topado con archivos que justo en el final están los errores.

De ahí todas las funcionalidades del power query muy buenas.

Saludos,
dlom
Participante
7 julio 2022 a las 5:00 pm
Hola @Javl88 ,
Sí, son las primeras 1,000 filas.
Saludos,
jburrull
Espectador
7 julio 2022 a las 5:00 pm
Determinar la calidad de los datos cargados y su distribución.
Identificar outliers, valores minimos, maximos, promedios y desviaciones.
Por último ver cantidad de valores distintos y unicos, lo que redunda en el tamaño del modelo y la tasa de compresión del mismo.
andresjmendezp
Espectador
7 julio 2022 a las 5:00 pm
Aprendi como se visualiza cuantos errores tiene las columnas y cuandos datos estan vacios, la verdad pense que la version que estaba trabajando estaba desactualizada por que no no veia las distribucion ni el semaforo en los titulos de las columnas.

Me servira para identificar rapidamente errores o tendencias en las columnas sin necesidad de hacer un reporte o una visualizacion.

Espero que en el examen entregen datos con problemas o tendencias y al usar estas herramientas se podran responder de manera muy rapida.
llopez
Espectador
7 julio 2022 a las 5:00 pm
- Aprendí sobre los Outliers y como empezar a analizar para ver si existe alguna incongruencia en los datos
- El tema de las propiedades de las tablas y columnas super importante, ya que al tener una vista previa de como están los datos, podemos identificar algunos errores de forma mas rápida
*Otra cosa que fue totalmente nuevo, fueron las vistas de tablas y values que se generan cuando están relaciones, primera vez que lo vi, muy interesante.

Definitivamente este modulo es muy importante para revisar la calidad de los datos y así poder evitar inconsistencias futuras de este tipo
Abigail
Espectador
7 julio 2022 a las 5:00 pm
Hola a todos

¿Qué aprendiste en la sección “Profile the data”?
Outliers, fue un tema nuevo para mí, ahora se que son y me será más fácil identificarlos y darles una correcta interpretación .

¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI? Tema muy importante pues de estos depende la calidad de los desarrollos y que la confiabilidad de los datos presentados sea completa.

¿Cómo te servirá esto que aprendiste al presentar el examen de certificación? Ya sea como teoría o práctica, el entender como se representa la información y cómo identificar y solucionar adecuadamente los errores, facilita en gran manera la solución de un problema
Jorge_Bastidas
Espectador
7 julio 2022 a las 5:00 pm
Esta sección ha sido bastante útil para aprender a identificar los posibles errores o datos fuera de orden en nuestro dataset.

Estoy seguro que será de mucha ayuda durante el examen.
dlom
Participante
7 julio 2022 a las 5:00 pm
Estos posts van a ser una guía de estudio ENORME gracias a ustedes que están compartiendo lo que van viendo en cada sección: @Abigail , @Jorge_Bastidas , @llopez , @andresjmendezp , @jburrull , @Javl88 , @josses , @Isidre , @David , @KevinRoger , @rcuevas , @Carlos_Figueroa , @minervamar , @sfnavarrete , @chaffardet , @Hurodebe . ¡Gracias!
Gianfranco
Espectador
6 noviembre 2022 a las 10:30 pm
Identificar "data anomalies"

En esta sección aprendí a qué debemos establecer un método propio para identificar los datos "outliers" o datos que se salen del rango común. Una manera de hacerlo es a través de un gráfico de dispersión. Una vez encontrado estos datos outliers, es trabajo del analista validarlos.

Examinar las "data structures"

Cuando los datos son extraídos de una base de datos SQL, estos pueden incluir columnas con valores de "table" o "value". Table: tabla anidada por fila; value: muestra un registro por fila.

Interrogar las "column properties"

Power query permite el análisis de los datos por columna a través de las siguientes vistas:

Column quality: Valida los errores, vacíos y correctos.

Column distribution: Muestra la cantidad de valores de tipo distinct y unique. Distinct: cantidad de valores diferentes; unique: cantidad de valores únicos (no se repiten).

Interrogar las "data statistics"

Power query permite hacer un análisis estadístico por columna a través de la vista:

Column profile: Muestra datos estadísticos como: Valor mínimo, valor máximo, promedio, desviación estándar y un gráfico de distribución.
dat2186269519
Participante
4 enero 2023 a las 9:09 am
Hola!

Con las informaciones adquiridas aprendi a como analizar mejor las informaciones..
MSalvador
Participante
1 febrero 2023 a las 1:21 am
Que tal a todos,

¿Qué aprendiste en la sección “Profile the data”?

Como muchos saben, han vivido y hemos aprendido (a veces a la mala), una tarea que se va dejando de lado o que no se le da la importancia necesaria es al análisis exploratorio de los datos, como vimos en esta sección existen distintas maneras para hacer una validación de los datos, como se comenta el escenario perfecto sería no tener que preocuparnos por este tema y pasar directo a analizar el tema en cuestión, sin embargo, sabemos que en la vida real esto no es así y muchas fuentes de información necesitan de una depuración y/o transformación antes de empezar a analizar, por lo cual, conocer como esta conformado tu conjunto de datos es fundamental, ¿Qué columnas hay? ¿Qué tipo de datos existen? ¿Hay valores nulos? ¿Tenemos variables categóricas, numéricas, ambas? ¿Debemos de conocer datos estadísticos de alguna variable? ¿Nos aporta valor? Por poner algunos ejemplos y que como mencionó un compañero parafraseando un poco, mejor tratarlos al inicio que darnos de topes cuando el modelo no se ejecute de la manera esperada.

¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?

Como mencione en mi respuesta anterior un EDA (Análisis Exploratorio de Datos / Exploratory Data Analysis) es un paso que no debemos saltarnos ya que esta fase nos va a ayudar a entender el comportamiento de los datos, y no solo eso sino en el proceso de obtención de datos identificar si es adecuado o necesita de un ajuste (si es que esta en nuestro poder hacer algo al respecto). Así como ver si existen relaciones entre variables, determinar si consideramos valores outliers, manejo de nulos , etc.

¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?

Al entender y saber como utilizar las herramientas con las que cuenta POWER BI, nos ayuda a realizar tareas con una menor complejidad y optimizar el tiempo al máximo.
dat2188859367
Participante
8 febrero 2023 a las 3:25 pm
Aprendí que los datos pueden tener anomalías y que debemos crear nuestro propio método para identificarlos. Y aprendí a evaluar e interrogar las estadísticas de los datos.