Aprendizajes de la sección “Profile the data” del módulo “Prepare the data”

  • dlom
    Participante

      ¿Qué aprendiste en la sección “Profile the data”?
      ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?
      ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?

    • Hurodebe
      Espectador

        Buenos días con todos,

        La sección “Get data from different sources” me permitió conocer más herramientas de PowerBI para poder analizar nuestra data de entrada.

        Servirá para tener métricas de nuestra información a primera mano de las tablas de datos.

        Me servirá para tener familiaridad con los nuevos términos.

        Isidre
        Espectador

          Hola a todos,

          • Una forma rápida de revisar la existencia de “Outliers” en los datos.
          • distintas maneras de conocer la calidad de los datos
          • Me permitirá reducir el tiempo dedicado a la revisión de los datos.
          • en cuanto al examen, todo lo visto seguro que ayudará a entender las preguntas que se planteen y encontrar la respuesta adecuada.

          Planteo una duda :

          En las tablas “Sales y Budget” aparecen las columnas con el icono correspondiente a un “record” , pero los valores los trata como “Value”. Entiendo que deberían ser “record” o “List”.
          ¿Por qué “value”?
          Por ejemplo, en el resto de tablas hay columnas que contienen tablas anidadas, por eso, aparecen como “Tables”. “Sales y Budget” contienen “records” y así deberían aparecer, en vez de “values”.
          Lo planteo por si tiene algún significado que se deba tener en cuenta. Gracias.

          Nos vemos el martes.

          chaffardet
          Espectador

            Buenos días,

            La sección de Outliers estuvo muy bien, me gustó mucho el Column Properties, aporta mucha información y así no te enteras de errores en tus datos cuando armas el modelo y ves que no funciona (ya he estado ahí).

            Saludos

            sfnavarrete
            Espectador

              Mis Outliers los verifico con sentencias SQL pero me parecio excelente como los indetificamos desde Power BI con la visualización de Scatter Chart.

              Lo que aprendí es sobre donde debo cambiar (Column profling based on entire data set) para tener todos los datos en Power Query. Claro es importante saber el tamaño de los registros que existe en la tabla.

              Saludos,
              Santiago

              minervamar
              Espectador

                Esta sección nos permitirá poder ver desde un inicio la calidad de nuestros datos y de esta manera el resultado pueda ser mas preciso.
                De esta manera podemos depurarla o prepararla aun mejor para llevar a cabo nuestros análisis.

                SALUDOS A TODOS

                Carlos_Figueroa
                Espectador
                  • ¿Qué aprendiste en la sección “Profile the data”?
                    Resp. Herramientas para normalizar los datos fáciles de usar, de rápida visualización que ahorran mucho tiempo y son esenciales para disponer de tablas de datos limpias y confiables para trabajar.
                  • ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?
                    Resp. Considero que lo importante es la rigurosidad del trabajo previo de normalización y revisión de los datos para no llegar después a conclusiones erróneas.
                  • ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?
                    No puedes hacer un trabajo de calidad si los datos vienen con problemas de base, deberían haber preguntas relacionadas con estos conceptos porque son muy importantes.
                  rcuevas
                  Espectador

                    Buen día.

                    ¿Qué aprendiste en la sección “Profile the data”?

                    Lo importante de detectar anomalías en los datos

                    ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?

                    Buenas practicas y utilizar mas las herramientas que trae por default power bi para preparar los datos

                    ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?

                    Definitivamente lo explicado en esta sección servirá para el examen ya que ayuda a comprender cómo preparar la calidad de los datos.

                    Saludos…

                    KevinRoger
                    Participante

                      ¿Qué aprendiste en la sección “Profile the data”?

                      • Métodos para validar que los datos de las tablas vienen limpios e identificar outliers.
                      • Utilizar el editor de consultas para evaluar la calidad de los datos con los que trabajaré.
                      • Por último interrogar las propiedades de las columnas de las tablas con las que se quiere trabajar.

                      ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?

                      • En primer lugar hacer una validación de tus datos, ayudará a que tengas certeza en que los resultados que presentarás son válidos.
                      • Evaluar la calidad de los datos también me servirá mucho para tener una previsualización de si hay existencia de datos con error, vacíos o válidos y también ver cuantos valores son distintos y/o únicos.
                      • Junto con lo anterior también tomar en cuenta que si hay campos que no necesitaré o que no son relevantes para el desarrollo de mis dashboard, mientras mayor datos únicos tengan estos campos, más pesado será el archivo.

                      ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?

                      • Yo creo que una de las cosas que el examen será muy exigente, es en que demostremos que podemos ser capaces de tener pensamiento crítico al momento de recibir archivos con los que debemos trabajar, cuestionarnos si realmente están o no correctos sus datos, tomando en cuenta que si este primer paso no lo realizamos, traerá consecuencias graves al momento de presentar resultados.
                      David
                      Espectador

                        Buenas Noches

                        El tema de Outliers interesante.
                        Ver como analizar la calidad de datos, con las tres opciones que brinda Power Query.
                        Una pregunta, el tener habilitada esas opciones implica algo en el rendimiento del proyecto, es decir, lo puede hacer mas grande o lento?
                        Saludos

                        Isidre
                        Espectador

                          Hola David,

                          Tal como yo lo veo, el hecho de tener activas cualquiera de las tres opciones de visualización (o las tres a la vez), no va a afectar al rendimiento del modelo ni a su tamaño. Ten en cuenta que cuando estás en Power Query Editor, lo que ves es el resultado del código M que se ejecuta detrás y no es hasta que decides clicar en “Close & Apply” que se cargan las tablas (las que tienen “Enabled Load” activado) al modelo.
                          Por tanto, una vez estés en el canvas, cuando refresques el modelo, el hecho de que las tres opciones que comentas estén o no activadas no tendrán ninguna incidencia en su rendimiento. Esto es así, tanto en el refresco de los datos de origen, como en las visualizaciones que vayas incorporando al informe.

                          Otra cosa es como afecte dentro del Power Query Editor estando abierto. Cada una de las opciones requiere un análisis de los datos y sí afectará al tiempo requerido, de la misma manera que si solicitas que este análisis lo limite a las mil primeras filas o la tabla entera.

                          Dicho esto, una vez cerrado el Power Query Editor, ya no debería tener ninguna incidencia ni en el refresco, ni el rendimiento, ni en el tamaño del pbix.

                          Espero haber aclarado la duda.

                          Un saludo.

                          dlom
                          Participante

                            Hola @David. La explicación de @Isidre está muy completa y acertada. Gracias a ambos.

                            josses
                            Espectador

                              Buen día a todos.
                              Me pareció muy buena la forma de describir las diferencias entre cada una de las vistas para ver las propiedades de los datos de las columnas de cada tabla. También me resultó interesante el ejemplo de utilizar un gráfico para evaluar inicialmente los rangos de los datos, el cual tomaré para aplicar en mis proyectos futuros.

                              Javl88
                              Espectador

                                Buenas tardes,

                                No había profundizado en que solo muestra las primeras 1,000 líneas, me quedó la duda si son las primeras 1,000 líneas literal de la base o trae un aleatorio de 1,000 líneas, me imaginé una base de datos con 1 millón de registros y que justo las últimas líneas tengan datos erróneos o faltantes, por lo regular me he topado con archivos que justo en el final están los errores.

                                De ahí todas las funcionalidades del power query muy buenas.

                                Saludos,

                                dlom
                                Participante

                                  Hola @Javl88 ,
                                  Sí, son las primeras 1,000 filas.
                                  Saludos,

                                  jburrull
                                  Espectador

                                    Determinar la calidad de los datos cargados y su distribución.
                                    Identificar outliers, valores minimos, maximos, promedios y desviaciones.
                                    Por último ver cantidad de valores distintos y unicos, lo que redunda en el tamaño del modelo y la tasa de compresión del mismo.

                                  Viendo 15 respuestas - de la 1 a la 15 (de un total de 50)
                                  • Debes estar registrado para responder a este debate.