Aprendizajes de la sección “Profile the data” del módulo “Prepare the data”

  • dlom
    Participante

      ¿Qué aprendiste en la sección “Profile the data”?
      ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?
      ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?

    • gpantoja
      Espectador
        • ¿Qué aprendiste en la sección “Profile the data”?
          Puedo ver facilmente como vienen los datos, puedo saber de antemano si será necesario intervenir y buscar detalles de los outliners
        • ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?
          Agilizar el tiempo que podría tomar la limpieza de los datos
        • ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?
          conocimiento del uso de la herramienta y lo poderoso que puede ser el query editor
        jluis
        Espectador

          Sección muy interesante la cual ya había aprendido en tus otros cursos y que me sirve para interiorizar algo más la importancia del análisis que hacemos antes de empezar a realizar nuestras visualizaciones. Importante detectar anomalías y posibles errores lo antes posible.

          hhectorgarcia
          Espectador

            Buenos días,

            Sección importante para saber hacer un previó análisis de los datos antes de hacer el dashboard definitivo, también muy interesante el apartado de Vista previa de datos ya que te permite conocer datos muy interesantes con apenas unos clicks.

            Un saludo.

            managerdeproductivid
            Espectador

              Buenas tardes, compartiendo lo aprendido:

              1. tenemos la opción en la pestaña VER de verificar la Data, en:
                A- Calidad de columna: Valido/Error/Vacío
                B- Distribución de Columna: Distintos / Únicos
                C- Perfil de columna: Estadísticas como: Recuento, Error, Vacío, distintos, Únicos, NAN, cero, Min, Max, Promedio, Desviación Estándar.

              Saludos cordiales,
              Julio Zarate

              blardiles
              Espectador

                Hola a todos! En la sección de “Profile the data” aprendí principalmente sobre la necesidad de establecer un método propio de revisión de los datos para identificar datos anómalos o outliers. Me resultó muy práctico la posibilidad de usar diagramas de dispersión para analizar este tema.

                Veo la necesidad de comenzar a establecer mi propio método que me sea más útil pero sobretodo que me permita mejorar el análisis de la calidad de los datos de los proyectos que realice.

                Muchas gracias!

                Saludos!

                Valentina_Ramirez
                Espectador

                  Hola a todos
                  En esta sección se reitera la importancia de analizar la estructura de los datos, revisar posibles inconsistencias o outliers; posteriormente esto nos permitirá realizar una limpieza a nuestros datos y que el modelo que desarrollemos se pueda relacionar correctamente y se desarrollen medidas y visualizaciones sin inconvenientes.

                  Saludos.

                  nahuel
                  Espectador

                    Hola a todos,
                    Previamente a utilizar Power BI tuve que realizar un trabajo de análisis de datos con Excel sobre muchas tablas de censos de diversos países. Con lo aprendido aquí veo que hubiese podido simplificar enormemente la carga de trabajo al utilizar por ejemplo el column profile, column properties que brinda los valores y distribuciones estadísticas de manera muy sencilla.
                    El método mostrado para la detección de outliers también me resultó útil y pude aplicarlo a diferentes set de datos que contenían la información de registros climáticos en los cuales había valores erróneos por falla de lectura del dispositivo arduino utilizado para la captura de datos.
                    Me resultó apropiado hacer hincapié en que se debe tener cuidado a la hora de cambiar el tipo de dato de una columna al momento de relacionarla con otra tabla.
                    También rescato lo visto en columnas especiales ya que no sabía por qué aparecían y algunas mostraban el valor “tabla” y otros “valor”

                    Saludos

                    Piwichalower
                    Espectador

                      Esta sección me ha permitido ahorrar tiempo en la validación de la calidad de datos, que anteriormente lo realizaba en la parte de reportes y al cuadrar los resultados.

                      Este paso permitirá coordinar con el equipo de producción que revisa el proceso de carga al servidor, quienes tendrán que revisar el ETL. Esto me permitirá avanzar tareas de pruebas de carga de datos del modelo.

                      Respecto a la certificación tengo una duda, porque hay una pregunta cuya solución para mi sería otra. Les comparto.
                      para mi la solución sería B y C, pero en la respuesta indica que es C y D.

                       

                       

                      Saludos,

                      Julioc7709
                      Espectador

                        Hola a todos,

                        La Sección Perfil de los datos, permitió mi conocimiento de partes esenciales del editor de consultas, poder identificar en donde se pueden modificar las características de los tipos de datos, poder evaluar el estado de la carga de las columnas con las estadísticas de la información, indicándome la calidad de los datos, conocer de manera agrupada la cantidad de datos únicos o repetidos y conocer que puedo aplicar estas opciones a todos los datos o solo los primeros 1000 registros.

                        De paso a la certificación estos temas me apoyaran porque seguramente saldrán preguntas, en la realidad este tema Perfil del dato, podría resumirse en, la calidad de los datos, y es que es algo de mucho impacto en que los resultados de las visualizaciones y funciones DAX, sean correctos.

                        saludos,

                        Julio C

                        jrorozcor
                        Espectador

                          Poder visualizar de manera rapida las caracteristicas y en cierto modo la calidad de los datos es de gran ayuda

                          Hidalgo
                          Espectador

                            de gran interes para mi y su inmediata aplicacion es lo que he aprendido sobre los share datasets y la utilizacion de Direct Query para conectar a bases de Datos

                            Isidre
                            Espectador

                              Hola a todos,

                              • Una forma rápida de revisar la existencia de “Outliers” en los datos.
                              • distintas maneras de conocer la calidad de los datos
                              • Me permitirá reducir el tiempo dedicado a la revisión de los datos.
                              • en cuanto al examen, todo lo visto seguro que ayudará a entender las preguntas que se planteen y encontrar la respuesta adecuada.

                              Planteo una duda :

                              En las tablas “Sales y Budget” aparecen las columnas con el icono correspondiente a un “record” , pero los valores los trata como “Value”. Entiendo que deberían ser “record” o “List”.
                              ¿Por qué “value”?
                              Por ejemplo, en el resto de tablas hay columnas que contienen tablas anidadas, por eso, aparecen como “Tables”. “Sales y Budget” contienen “records” y así deberían aparecer, en vez de “values”.
                              Lo planteo por si tiene algún significado que se deba tener en cuenta. Gracias.

                              Nos vemos el martes.

                              LuisChombo1774
                              Espectador

                                ¿Qué aprendiste en la sección “Profile the data”?

                                A identificar las anomalías que pueda tener la BD y poder validar con ayuda de diversas funciones que problemas presenta la información.

                                ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?

                                Me impulsa a establecer un método estandarizado para el análisis de la data previo a la carga en Power BI.

                                ¿Cómo te servirá esto que aprendiste al presentar el examen de certificación?

                                Considero que es necesario para poder superar el examen entender la importancia de que la BD se encuentre lo más limpia posible y generar indicadores más cercanos a la realidad.

                                bernabe
                                Espectador

                                  ¿Qué aprendiste en la sección “Profile the data”?

                                  Aprendí a analizar la estructura de las tablas de datos de una base de datos sql server. Vimos una matriz desde donde se puede inferir las relaciones que existen en las tablas mediante el nombre y el tipo de datos.

                                  Aprendí a analizar el perfil de los datos. Esto puede lograrse mediante una gráfica de dispersión que muestre los valores distantes o fuera de rango normal y los valores atípicos.

                                  También otra fuente de análisis son las opciones del view en el query editor. En esta opción existen tres opciones de analisis.

                                  Una permite ver la distribución de los datos donde nos muestra los valores únicos y distintos. “Column distribution”

                                  Otra opción es el “Column quality” que nos muestra la cantidad de datos con errores, cantidad de celdas vacías y la cantidad de celdas válidas.

                                  La tercera es la opción de “Column profile”. Aquí podemos ver las estadísticas de los datos. El valor máximo, el mínimo, los ceros, el promedio, la desviación estándar, ect.

                                  Estos análisis vienen por defecto para los primeros 1000 registros, pero se puede ampliar a todo el dataset.

                                  ¿Cómo te servirá esto que aprendiste en tus desarrollos de Power BI?

                                  Para mi es de suma importancia este análisis de los datos. Trabajo mucho con Excel y con fuentes basadas en reportes de varios sistemas. Ahora tengo mas claro las herramientas para estudiar y resolver los errores en los datos de mis fuentes.

                                  ¿ Cómo te servirá esto que aprendiste al presentar el examen de certificación?

                                  Podría responder con mas propiedad a las preguntas relacionadas al perfil de los datos “ DATA PROFILE”.

                                  cmoralesv
                                  Espectador

                                    Chicos les paso mi resumen de esta sección:

                                    · identify data anomalies (outliars)

                                    Como usar funcionalidades que vienen en Power BI para detectar anomalías en tus datos.

                                    2 Casos en los que pasan:

                                    1. Se eliminó el dato
                                    2. Fenómeno real en BI

                                    Las gráficas nos ayudan mucho a poder visualizar las anomalías, es común usar gráficas de disperción o histogramas con tablas para poder encontrar anomalías.

                                    · examine data structures

                                    Examinar la estructura de nuestros datos

                                    Dentro del Query Editor cada consulta tiene columnas que a su vez tienen un tipo de dato específico. Es importante colocar el tipo de dato correcto para cada columna.

                                    Debemos tener cuidado de cambiar el tipo de dato entre dos columnas relacionadas entre dos consultas, si hacemos el cambio en una de las columnas afectará la relación.

                                    Tenemos columnas que algunas de ellas con TABLAS (Se tiene una tabla anidada )y otras que son VALORES (Se tiene un listado, que es unicamente un registro)

                                    · interrogate column properties

                                    Column properties = Propiedades de las columnas

                                    Es básicamente es conocer la información nos muestran las columnas y como la podemos utilizarla para conocer mejor nuestros datos.

                                    Vamos a Transform Data >> en la ventana View podemos activar la calidad de las columnas que nos mostrará:

                                    · la informacion valida

                                    nos muestran las columnas y como la podemos utilizarla para conocer mejor nuestros datos.

                                    Vamos a Transform Data >> en la ventana View podemos activar la calidad de las columnas que nos mostrará:

                                    · la informacion valida

                                    · los errores

                                    · los valores vacios.

                                    .

                                    Si en View seleccionamos el COLUMN DISTRIBUTION nos dará una idea de la distribución de valores en cada uno de los valores.

                                    Gracias a esta opcion del Power Query nos ayuda a concer mejor la distribución de nuestros datos.

                                    Entre más valores unicos haya en nuetras columnas el tamaño de nuetro archivo será más y más grande debido al método de compresión de Power BI.

                                    · interrogate data statistics

                                    Como vizualizar las estadísticas que estan detrás de nuestros datos.

                                    Vamos a Transform Data >> en la ventana View podemos activar COLUMN PROFILE y ahi veremos la estadítica de nuestros datos.

                                    TENER EN CUENTA QUE EN LA PARTE INFERIOR SE MUESTRA QUE LA TABLA MUESTRA SOLO 1000 DATOS entonces se puede cambiar para mostrar más datos en “Column profiling based on entire data set”

                                  Viendo 15 respuestas - de la 1 a la 15 (de un total de 61)
                                  • Debes estar registrado para responder a este debate.