Pandas Profiling genera informes de perfiles desde un DataFrame de pandas. La función pandas df.describe() es genial pero un poco básica para un análisis exploratorio de datos serio. pandas_profiling extiende el pandas DataFrame con df.profile_report() para un análisis de datos rápido.
Para cada columna las siguientes estadísticas - si son relevantes para el tipo de columna - se presentan en un informe HTML interactivo:
Para cada columna las siguientes estadísticas - si son relevantes para el tipo de columna - se presentan en un informe HTML interactivo:
- Inferencia de tipo: detectar los tipos de columnas en un dataframe.
- Esenciales: tipo, valores únicos, valores perdidos
- Estadísticas de cantidad como valor mínimo, Q1, mediana, Q3, máximo, rango, rango intercuartílico
- Estadísticas descriptivas como la media, el modo, la desviación estándar, la suma, la mediana de la desviación absoluta, el coeficiente de variación, la curtosis, la asimetría
- Los valores más frecuentes
- Histograma
- Correlaciones destacadas de variables altamente correlacionadas, matrices de Spearman, Pearson y Kendall
- Matriz de valores perdidos, recuento, mapa de calor y dendrograma de valores perdidos
- Análisis de texto aprende sobre las categorías (Mayúsculas, Espacio), guiones (Latín, Cirílico) y bloques (ASCII) de datos de texto.
- Análisis de archivos e imágenes extrae los tamaños de los archivos, las fechas de creación y las dimensiones y escanea las imágenes truncadas o que contienen información EXIF.
Datasets
- Dataset Original: https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh
- Dataset Descarga https://drive.google.com/file/d/13ka69qunrTOhprZPKjmlK77JpKmsq73a/view?usp=sharing
- Documentación: https://github.com/pandas-profiling/pandas-profiling
- Slides: https://docs.google.com/presentation/d/1dDzu9U5OPPKhK4KZ34ryHeCg-gUr_t2MHvevb9WfZAk/edit?usp=sharing
Desventajas:
- La principal desventaja de la elaboración de perfiles de pandas es su uso con grandes conjuntos de datos. Con el aumento del tamaño de los datos, el tiempo para generar el informe también aumenta mucho.
- Una forma de resolver este problema es generar el informe del perfil para una parte del conjunto de datos. Pero mientras se hace esto, es muy importante asegurarse de que los datos son muestreados al azar para que sean representativos de todos los datos que tenemos. Podemos hacer esto por:
- Alternativamente, si insistes en obtener el informe de todo el conjunto de datos, puedes hacerlo usando el modo mínimo.
- En el modo mínimo se generará un informe simplificado con menos información que el
- completo, pero puede generarse con relativa rapidez para un gran conjunto de datos.
- El código para el mismo se da a continuación:
“¿Cómo Usar Pandas Profiling Para Análisis Exploratorio de Datos?”– Daniel MoralesTweet