Ahora vamos a configurar el ambiente de Pycaret
La función setup() inicializa el entorno en pycaret y crea la tubería de transformación para preparar los datos para el modelado y el despliegue
setup() debe ser llamada antes de ejecutar cualquier otra función en pycaret.
Toma dos parámetros obligatorios: un dataframe de pandas y el nombre de la columna de destino
Todos los demás parámetros son opcionales y se utilizan para personalizar la tubería de preprocesamiento
La mayor parte de esta parte de la configuración se hace automáticamente, pero se pueden establecer manualmente algunos parámetros. Por ejemplo:
La proporción de división por defecto es 70:30, pero puede ser cambiada con "train_size"
La validación cruzada K-fold se establece en 10 por defecto
"session_id" es nuestro clásico "random_state"
Cuando se ejecuta setup(), el algoritmo de inferencia de PyCaret deducirá automáticamente los tipos de datos de todas las características en función de determinadas propiedades.
El tipo de datos debe ser inferido correctamente pero no siempre es así.
Para tener esto en cuenta, PyCaret muestra una tabla que contiene las características y sus tipos de datos inferidos después de que se ejecuta setup().
Si todos los tipos de datos se identifican correctamente, se puede pulsar enter para continuar o salir para terminar el experimento
Asegurarse de que los tipos de datos son correctos es de fundamental importancia en PyCaret, ya que realiza automáticamente algunas tareas de preprocesamiento que son imprescindibles para cualquier experimento de ML
Estas tareas se realizan de forma diferente para cada tipo de datos, lo que significa que es muy importante que estén correctamente configurados.
La función setup() inicializa el entorno en pycaret y crea la tubería de transformación para preparar los datos para el modelado y el despliegue
setup() debe ser llamada antes de ejecutar cualquier otra función en pycaret.
Toma dos parámetros obligatorios: un dataframe de pandas y el nombre de la columna de destino
Todos los demás parámetros son opcionales y se utilizan para personalizar la tubería de preprocesamiento
La mayor parte de esta parte de la configuración se hace automáticamente, pero se pueden establecer manualmente algunos parámetros. Por ejemplo:
La proporción de división por defecto es 70:30, pero puede ser cambiada con "train_size"
La validación cruzada K-fold se establece en 10 por defecto
"session_id" es nuestro clásico "random_state"
Cuando se ejecuta setup(), el algoritmo de inferencia de PyCaret deducirá automáticamente los tipos de datos de todas las características en función de determinadas propiedades.
El tipo de datos debe ser inferido correctamente pero no siempre es así.
Para tener esto en cuenta, PyCaret muestra una tabla que contiene las características y sus tipos de datos inferidos después de que se ejecuta setup().
Si todos los tipos de datos se identifican correctamente, se puede pulsar enter para continuar o salir para terminar el experimento
Asegurarse de que los tipos de datos son correctos es de fundamental importancia en PyCaret, ya que realiza automáticamente algunas tareas de preprocesamiento que son imprescindibles para cualquier experimento de ML
Estas tareas se realizan de forma diferente para cada tipo de datos, lo que significa que es muy importante que estén correctamente configurados.
“Trabajando el Pipeline de Machine Learning con PyCaret Parte 2”– Daniel MoralesTweet