Antes de finalizar el modelo, es aconsejable realizar una comprobación final mediante la predicción del conjunto de test/hold-out y la revisión de las métricas de evaluación.
Si se mira la tabla de información, se verá que el 30% (6.841 muestras) de los datos se ha separado como muestra de test/hold-out
Todas las métricas de evaluación que hemos visto anteriormente son resultados validados cruzados basados en el conjunto de entrenamiento (70%) solamente.
Ahora, usando nuestro modelo final de entrenamiento almacenado en la variable tuned_rf predecimos contra la muestra de test y evaluaremos las métricas para ver si son materialmente diferentes de los resultados del CV
La precisión del conjunto de test es de 0,8135 en comparación con el 0,8225 alcanzado en los resultados del tuned_rf
Esta no es una diferencia significativa. Si hay una gran variación entre los resultados del conjunto de test y el de entrenamiento, esto indicaría normalmente un sobreajuste, pero también podría deberse a varios otros factores y requeriría una investigación más a fondo
En este caso, seguiremos adelante con la finalización del modelo y la predicción sobre datos no vistos (el 5% que habíamos separado al principio y que nunca se expuso a PyCaret).
(SUGERENCIA: Siempre es bueno mirar la desviación estándar de los resultados del conjunto de entrenamiento cuando se usa create_model().)
Si se mira la tabla de información, se verá que el 30% (6.841 muestras) de los datos se ha separado como muestra de test/hold-out
Todas las métricas de evaluación que hemos visto anteriormente son resultados validados cruzados basados en el conjunto de entrenamiento (70%) solamente.
Ahora, usando nuestro modelo final de entrenamiento almacenado en la variable tuned_rf predecimos contra la muestra de test y evaluaremos las métricas para ver si son materialmente diferentes de los resultados del CV
La precisión del conjunto de test es de 0,8135 en comparación con el 0,8225 alcanzado en los resultados del tuned_rf
Esta no es una diferencia significativa. Si hay una gran variación entre los resultados del conjunto de test y el de entrenamiento, esto indicaría normalmente un sobreajuste, pero también podría deberse a varios otros factores y requeriría una investigación más a fondo
En este caso, seguiremos adelante con la finalización del modelo y la predicción sobre datos no vistos (el 5% que habíamos separado al principio y que nunca se expuso a PyCaret).
(SUGERENCIA: Siempre es bueno mirar la desviación estándar de los resultados del conjunto de entrenamiento cuando se usa create_model().)
“Trabajando el Pipeline de Machine Learning con PyCaret Parte 4”– Daniel MoralesTweet