Aprendizajes de la sección “Profile the data” del módulo “Prepare the data”

Etiquetado: 

  • Diego
    Participante

    ¿Qué aprendiste en la sección “Profile the data”?
    ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?
    ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?

  • Hurodebe

    Buenos días con todos,

    La sección “Get data from different sources” me permitió conocer más herramientas de PowerBI para poder analizar nuestra data de entrada.

    Servirá para tener métricas de nuestra información a primera mano de las tablas de datos.

    Me servirá para tener familiaridad con los nuevos términos.

    Isidre

    Hola a todos,

    • Una forma rápida de revisar la existencia de “Outliers” en los datos.
    • distintas maneras de conocer la calidad de los datos
    • Me permitirá reducir el tiempo dedicado a la revisión de los datos.
    • en cuanto al examen, todo lo visto seguro que ayudará a entender las preguntas que se planteen y encontrar la respuesta adecuada.

    Planteo una duda :

    En las tablas “Sales y Budget” aparecen las columnas con el icono correspondiente a un “record” , pero los valores los trata como “Value”. Entiendo que deberían ser “record” o “List”.
    ¿Por qué “value”?
    Por ejemplo, en el resto de tablas hay columnas que contienen tablas anidadas, por eso, aparecen como “Tables”. “Sales y Budget” contienen “records” y así deberían aparecer, en vez de “values”.
    Lo planteo por si tiene algún significado que se deba tener en cuenta. Gracias.

    Nos vemos el martes.

    chaffardet

    Buenos días,

    La sección de Outliers estuvo muy bien, me gustó mucho el Column Properties, aporta mucha información y así no te enteras de errores en tus datos cuando armas el modelo y ves que no funciona (ya he estado ahí).

    Saludos

    sfnavarrete

    Mis Outliers los verifico con sentencias SQL pero me parecio excelente como los indetificamos desde Power BI con la visualización de Scatter Chart.

    Lo que aprendí es sobre donde debo cambiar (Column profling based on entire data set) para tener todos los datos en Power Query. Claro es importante saber el tamaño de los registros que existe en la tabla.

    Saludos,
    Santiago

    minervamar

    Esta sección nos permitirá poder ver desde un inicio la calidad de nuestros datos y de esta manera el resultado pueda ser mas preciso.
    De esta manera podemos depurarla o prepararla aun mejor para llevar a cabo nuestros análisis.

    SALUDOS A TODOS

    Carlos_Figueroa
    • ¿Qué aprendiste en la sección “Profile the data”?
      Resp. Herramientas para normalizar los datos fáciles de usar, de rápida visualización que ahorran mucho tiempo y son esenciales para disponer de tablas de datos limpias y confiables para trabajar.
    • ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?
      Resp. Considero que lo importante es la rigurosidad del trabajo previo de normalización y revisión de los datos para no llegar después a conclusiones erróneas.
    • ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?
      No puedes hacer un trabajo de calidad si los datos vienen con problemas de base, deberían haber preguntas relacionadas con estos conceptos porque son muy importantes.
    rcuevas
    Participante

    Buen día.

    ¿Qué aprendiste en la sección “Profile the data”?

    Lo importante de detectar anomalías en los datos

    ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?

    Buenas practicas y utilizar mas las herramientas que trae por default power bi para preparar los datos

    ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?

    Definitivamente lo explicado en esta sección servirá para el examen ya que ayuda a comprender cómo preparar la calidad de los datos.

    Saludos…

    KevinRoger
    Participante

    ¿Qué aprendiste en la sección “Profile the data”?

    • Métodos para validar que los datos de las tablas vienen limpios e identificar outliers.
    • Utilizar el editor de consultas para evaluar la calidad de los datos con los que trabajaré.
    • Por último interrogar las propiedades de las columnas de las tablas con las que se quiere trabajar.

    ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?

    • En primer lugar hacer una validación de tus datos, ayudará a que tengas certeza en que los resultados que presentarás son válidos.
    • Evaluar la calidad de los datos también me servirá mucho para tener una previsualización de si hay existencia de datos con error, vacíos o válidos y también ver cuantos valores son distintos y/o únicos.
    • Junto con lo anterior también tomar en cuenta que si hay campos que no necesitaré o que no son relevantes para el desarrollo de mis dashboard, mientras mayor datos únicos tengan estos campos, más pesado será el archivo.

    ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?

    • Yo creo que una de las cosas que el examen será muy exigente, es en que demostremos que podemos ser capaces de tener pensamiento crítico al momento de recibir archivos con los que debemos trabajar, cuestionarnos si realmente están o no correctos sus datos, tomando en cuenta que si este primer paso no lo realizamos, traerá consecuencias graves al momento de presentar resultados.
    David

    Buenas Noches

    El tema de Outliers interesante.
    Ver como analizar la calidad de datos, con las tres opciones que brinda Power Query.
    Una pregunta, el tener habilitada esas opciones implica algo en el rendimiento del proyecto, es decir, lo puede hacer mas grande o lento?
    Saludos

    Isidre

    Hola David,

    Tal como yo lo veo, el hecho de tener activas cualquiera de las tres opciones de visualización (o las tres a la vez), no va a afectar al rendimiento del modelo ni a su tamaño. Ten en cuenta que cuando estás en Power Query Editor, lo que ves es el resultado del código M que se ejecuta detrás y no es hasta que decides clicar en “Close & Apply” que se cargan las tablas (las que tienen “Enabled Load” activado) al modelo.
    Por tanto, una vez estés en el canvas, cuando refresques el modelo, el hecho de que las tres opciones que comentas estén o no activadas no tendrán ninguna incidencia en su rendimiento. Esto es así, tanto en el refresco de los datos de origen, como en las visualizaciones que vayas incorporando al informe.

    Otra cosa es como afecte dentro del Power Query Editor estando abierto. Cada una de las opciones requiere un análisis de los datos y sí afectará al tiempo requerido, de la misma manera que si solicitas que este análisis lo limite a las mil primeras filas o la tabla entera.

    Dicho esto, una vez cerrado el Power Query Editor, ya no debería tener ninguna incidencia ni en el refresco, ni el rendimiento, ni en el tamaño del pbix.

    Espero haber aclarado la duda.

    Un saludo.

    Diego
    Participante

    Hola @David. La explicación de @Isidre está muy completa y acertada. Gracias a ambos.

    josses

    Buen día a todos.
    Me pareció muy buena la forma de describir las diferencias entre cada una de las vistas para ver las propiedades de los datos de las columnas de cada tabla. También me resultó interesante el ejemplo de utilizar un gráfico para evaluar inicialmente los rangos de los datos, el cual tomaré para aplicar en mis proyectos futuros.

    Javl88

    Buenas tardes,

    No había profundizado en que solo muestra las primeras 1,000 líneas, me quedó la duda si son las primeras 1,000 líneas literal de la base o trae un aleatorio de 1,000 líneas, me imaginé una base de datos con 1 millón de registros y que justo las últimas líneas tengan datos erróneos o faltantes, por lo regular me he topado con archivos que justo en el final están los errores.

    De ahí todas las funcionalidades del power query muy buenas.

    Saludos,

    Diego
    Participante

    Hola @Javl88 ,
    Sí, son las primeras 1,000 filas.
    Saludos,

    jburrull

    Determinar la calidad de los datos cargados y su distribución.
    Identificar outliers, valores minimos, maximos, promedios y desviaciones.
    Por último ver cantidad de valores distintos y unicos, lo que redunda en el tamaño del modelo y la tasa de compresión del mismo.

Viendo 15 respuestas - de la 1 a la 15 (de un total de 42)
  • Debes estar registrado para responder a este debate.