EDA-python

4 herramientas para acelerar el análisis de datos exploratorios (EDA) en Python

La próxima vez, use una línea de código para automatizar su EDA. Así es cómo.

La preparación de datos y el análisis exploratorio de datos requieren mucho tiempo y esfuerzo por parte de los profesionales de datos. ¿No sería bueno tener un paquete que le permita explorar sus datos rápidamente, en una sola línea de código?

Le mostraré los mejores cuatro paquetes de Python que pueden automatizar su exploración y análisis de datos. Revisaré cada uno, qué hace y cómo puede usarlo.

4 formas de acelerar su EDA en Python

  1. DataPrep
  2. Pandas profiling
  3. SweetViz
  4. AutoViz

1. Preparación de datos

DataPrep le permite preparar sus datos usando una sola biblioteca con unas pocas líneas de código. El ecosistema DataPrep consta actualmente de tres componentes:

  • conector 
  • AED
  • Limpiar API

El conector permite una recopilación de datos simple de las API web al proporcionar un conjunto estándar de operaciones. El componente EDA maneja el análisis de datos exploratorios, y la API limpia proporciona funciones para limpiar y validar datos de manera eficiente.

Por ejemplo, al usar el conjunto de datos de infracciones de estacionamiento de Filadelfia , podemos llamar para obtener una descripción general de EDA en el marco de datos o trazar correlaciones con una sola línea de código, usando . plot()plot_correlations()

También puede generar un informe detallado con una línea de código utilizando DataPrep. Aquí hay un create_report()método llamado en un marco de datos.

import pandas as pd
from dataprep.eda import create_report
df = pd.read_csv("parking_violations.csv")
create_report(df)

Obtendrá un informe extenso e interactivo de variables y correlaciones, así como interacciones y valores faltantes.


DataPrep facilita la cantidad y el esfuerzo que necesita como científico de datos para explorar el conjunto de datos. Con solo una línea de código, puede obtener una descripción general de su conjunto de datos, los valores faltantes, las correlaciones y la descripción estadística del conjunto de datos, como puede ver arriba.

Para instalar DataPrep, ejecute:

pip install dataprep

Consulte la documentación de DataPrep para obtener más información.

Más: ¿Qué es el análisis de datos espaciales exploratorios (ESDA)?

2. Perfiles de pandas

Pandas Profiling genera informes de perfil a partir de Pandas DataFrame y le permite realizar tipos de EDA similares a los de los otros paquetes que estoy discutiendo aquí. Tiene un caso de uso extenso y más tutoriales que todos los paquetes.

Con solo una línea de código, puede generar un informe EDA utilizando Pandas Profiling con estadísticas descriptivas, correlaciones, valor faltante, análisis de texto y más.

Invoquemos ProfileReport()el marco de datos de Filadelfia para generar un informe EDA.

from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Report")
profile

Pandas Profiling genera un informe similar con una elegante interfaz de usuario (UI).

Puede instalar usando el administrador de paquetes pip ejecutando:

pip install pandas-profiling[notebook]

Asegúrese de visitar el repositorio de GitHub para obtener más tutoriales y documentación.

Análisis exploratorio de datos (EDA) usando Python

3. SweetViz

¡SweetViz ofrece un EDA detallado (análisis de objetivos, comparación, análisis de características, correlación) y un EDA interactivo en dos líneas de código! Además, SweetViz le permite comparar dos conjuntos de datos, como conjuntos de datos de prueba y entrenamiento para sus proyectos de aprendizaje automático.

Para obtener un informe de SweetViz, puede ejecutar el siguiente comando en cualquier marco de datos y generará un informe HTML.

import sweetviz as sv
analyze_report = sv.analyze(df)
analyze_report.show_html(report.html', open_browser=False)

Más: Los 7 mejores tipos de mapas temáticos para datos geoespaciales

4. Visualización automática

Con AutoViz, puede visualizar automáticamente conjuntos de datos de cualquier tamaño con una sola línea de código con mucho más detalle. Aquí hay un informe generado con AutoViz utilizando el conjunto de datos de estacionamiento de Filadelfia.

from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()
df_av = AV.AutoViz('parking.csv')

Tenga en cuenta que ni siquiera necesita Pandas para leer los datos. AutoViz lo cargará cuando proporcione la ruta al conjunto de datos. Aquí está el informe que generamos con AutoViz.

EDA-python

En AutoViz, tiene muchas más gráficas (es decir, violín, diagramas de caja y más), así como valores estadísticos y de probabilidad. Sin embargo, la interfaz de usuario no es tan ordenada como los informes de otros, y no tiene acceso a gráficos interactivos.

Para instalar AutoViz, ejecute el siguiente comando:

pip install autoviz

Más: 7 formas de contar historias poderosas con su visualización de datos

La comida para llevar

Los cuatro paquetes ofrecen funcionalidades similares que le permiten automatizar su EDA con un código simple e intuitivo (¡a menudo solo una línea!).

Dicho esto, de los cuatro paquetes de este artículo, DataPrep proporciona mucha más funcionalidad que el simple EDA. Puede ayudarlo a ingerir más fuentes de datos y puede ayudarlo a procesar grandes conjuntos de datos más rápido.

Además, la API limpia en DataPrep puede ayudarlo a limpiar su conjunto de datos sin muchos obstáculos.