¿Cómo Usar Pandas Profiling Para Análisis Exploratorio de Datos?

Daniel Morales
Por Daniel Morales - Screencast # 1
Sep 29, 2020


Pandas Profiling genera informes de perfiles desde un DataFrame de pandas. La función pandas df.describe() es genial pero un poco básica para un análisis exploratorio de datos serio. pandas_profiling extiende el pandas DataFrame con df.profile_report() para un análisis de datos rápido.

Para cada columna las siguientes estadísticas - si son relevantes para el tipo de columna - se presentan en un informe HTML interactivo:

  • Inferencia de tipo: detectar los tipos de columnas en un dataframe.
  • Esenciales: tipo, valores únicos, valores perdidos
  • Estadísticas de cantidad como valor mínimo, Q1, mediana, Q3, máximo, rango, rango intercuartílico
  • Estadísticas descriptivas como la media, el modo, la desviación estándar, la suma, la mediana de la desviación absoluta, el coeficiente de variación, la curtosis, la asimetría
  • Los valores más frecuentes
  • Histograma
  • Correlaciones destacadas de variables altamente correlacionadas, matrices de Spearman, Pearson y Kendall
  • Matriz de valores perdidos, recuento, mapa de calor y dendrograma de valores perdidos
  • Análisis de texto aprende sobre las categorías (Mayúsculas, Espacio), guiones (Latín, Cirílico) y bloques (ASCII) de datos de texto.
  • Análisis de archivos e imágenes extrae los tamaños de los archivos, las fechas de creación y las dimensiones y escanea las imágenes truncadas o que contienen información EXIF.

Datasets

Desventajas:
  • La principal desventaja de la elaboración de perfiles de pandas es su uso con grandes conjuntos de datos. Con el aumento del tamaño de los datos, el tiempo para generar el informe también aumenta mucho.
  • Una forma de resolver este problema es generar el informe del perfil para una parte del conjunto de datos. Pero mientras se hace esto, es muy importante asegurarse de que los datos son muestreados al azar para que sean representativos de todos los datos que tenemos. Podemos hacer esto por:
  • Alternativamente, si insistes en obtener el informe de todo el conjunto de datos, puedes hacerlo usando el modo mínimo.
  • En el modo mínimo se generará un informe simplificado con menos información que el
  • completo, pero puede generarse con relativa rapidez para un gran conjunto de datos.
  • El código para el mismo se da a continuación:

“¿Cómo Usar Pandas Profiling Para Análisis Exploratorio de Datos?”
– Daniel Morales twitter social icon Tweet

Compartir este artículo:

0 Comentarios

Crear un comentario
Ingresar para Comentar
divider graphic

Otros Tutoriales

6

Trabajando el Pipeline de Machine Learning con PyCaret - Parte 4

PrediccionAntes de finalizar el modelo, es aconsejable realizar una comprobación final mediante la predicción del conjunto de test/hold-out y la re...

Daniel Morales
Por Daniel Morales
7

Trabajando el Pipeline de Machine Learning con PyCaret - Parte 3

Creando el Modelocreate_model es la función más granular de PyCaret y a menudo es la base de la mayoría de las funcionalidades de PyCaretComo su no...

Daniel Morales
Por Daniel Morales
12

Trabajando el Pipeline de Machine Learning con PyCaret - Parte 2

Puedes acceder a la Parte#1 de Trabajando el Pipeline de Machine Learning con PyCaret aqui: Entorno de PyCaretAhora vamos a configurar el ambiente ...

Daniel Morales
Por Daniel Morales
Partners

arrow-up icon