Trabajando el Pipeline de Machine Learning con PyCaret Parte 4

Daniel Morales
Por Daniel Morales - Screencast # 8
Sep 09, 2023


Antes de finalizar el modelo, es aconsejable realizar una comprobación final mediante la predicción del conjunto de test/hold-out y la revisión de las métricas de evaluación.
Si se mira la tabla de información, se verá que el 30% (6.841 muestras) de los datos se ha separado como muestra de test/hold-out
Todas las métricas de evaluación que hemos visto anteriormente son resultados validados cruzados basados en el conjunto de entrenamiento (70%) solamente.
Ahora, usando nuestro modelo final de entrenamiento almacenado en la variable tuned_rf predecimos contra la muestra de test y evaluaremos las métricas para ver si son materialmente diferentes de los resultados del CV
La precisión del conjunto de test es de 0,8135 en comparación con el 0,8225 alcanzado en los resultados del tuned_rf 
Esta no es una diferencia significativa. Si hay una gran variación entre los resultados del conjunto de test y el de entrenamiento, esto indicaría normalmente un sobreajuste, pero también podría deberse a varios otros factores y requeriría una investigación más a fondo
En este caso, seguiremos adelante con la finalización del modelo y la predicción sobre datos no vistos (el 5% que habíamos separado al principio y que nunca se expuso a PyCaret).
(SUGERENCIA: Siempre es bueno mirar la desviación estándar de los resultados del conjunto de entrenamiento cuando se usa create_model().)

“Trabajando el Pipeline de Machine Learning con PyCaret Parte 4”
– Daniel Morales twitter social icon Tweet

Compartir este artículo:

0 Comentarios

Crear un comentario
Ingresar para Comentar
divider graphic

Otros Tutoriales

Sep 02, 2023

Trabajando el Pipeline de Machine Learning con PyCaret Parte 3

create_model es la función más granular de PyCaret y a menudo es la base de la mayoría de las funcionalidades de PyCaretComo su nombre lo indica, e...

Daniel Morales
Por Daniel Morales
Aug 26, 2023

Trabajando el Pipeline de Machine Learning con PyCaret Parte 2

Ahora vamos a configurar el ambiente de PycaretLa función setup() inicializa el entorno en pycaret y crea la tubería de transformación para prepara...

Daniel Morales
Por Daniel Morales
Aug 19, 2023

Trabajando el Pipeline de Machine Learning con PyCaret Parte 1

Parte #1 - Introducción a la librería, dataset a trabajar e importancia en la división de los datosParte #2 - N-Fold Cross-validation, setup() y co...

Daniel Morales
Por Daniel Morales
Partners

graphical divider
Icon

Únete a nuestra comunidad privada en Slack

Manténgase al día participando de ésta gran comunidad de data scientists en latinoamérica. Hablamos sobre los retos, proyectos y competiciones en data science, trabajos en data science, cómo practicar las habilidades, qué podemos aprender y mucho más!

 
Te enviaremos un link de invitación a tu email inmediatamente.
arrow-up icon