Usando Predictive Power Score Para Hacer Correlaciones Parte 2

Daniel Morales
Por Daniel Morales - Screencast # 4
Aug 12, 2023


Comparando el PPS VS correlación
A esto lo llamamos efectos no lineales y asimetría
Usemos una relación cuadrática típica: la característica x es una variable uniforme que va de -2 a 2 y el objetivo y es el cuadrado de x más algún error.
En este caso, x puede predecir muy bien y porque hay una clara relación no lineal y cuadrática, después de todo así es como generamos los datos
Sin embargo, esto no es cierto en la otra dirección de y a x. Por ejemplo, si y es 4, es imposible predecir si x era aproximadamente 2 o -2
 Por lo tanto, la relación de predicción es asimétrica y las puntuaciones deben reflejar esto.
¿Cuáles son los valores de las puntuaciones en este ejemplo? Si no sabes ya lo que buscas, la correlación te dejará colgado porque la correlación es 0
Tanto de x a y como de y a x porque la correlación es simétrica
Sin embargo, el PPS de x a y es 0.67, detectando la relación no lineal y salvando el día
Sin embargo, el PPS no es 1 porque existe algún error en la relación
En la otra dirección, el PPS de y a x es 0 porque su predicción no puede ser mejor que la línea de base ingenua y por lo tanto el puntaje es 0

Conclusiones

Además de su mecanismo habitual de selección de características, puede utilizar el PPS para encontrar buenos predictores para su columna objetivo.
También puede eliminar las características que sólo añaden ruido aleatorio. 
Esas características a veces siguen teniendo una puntuación alta en la métrica de importancia de las características.
Además, puede eliminar las características que pueden ser predichas por otras características porque no añaden información nueva
Además, puedes identificar pares de características mutuamente predictivas en la matriz PPS - esto incluye características fuertemente correlacionadas pero también detectará relaciones no lineales.
Detectar la fuga de información: Utilice la matriz PPS para detectar la fuga de información entre las variables - incluso si la fuga de información es mediada por otras variables.
Normalización de datos: Encontrar estructuras de entidades en los datos a través de la interpretación de la matriz PPS como un gráfico dirigido. Esto puede ser sorprendente cuando los datos contienen estructuras latentes que antes eran desconocidas. 
Por ejemplo: el TicketID en el conjunto de datos del Titanic es a menudo un indicador para una familia

“Usando Predictive Power Score Para Hacer Correlaciones Parte 2”
– Daniel Morales twitter social icon Tweet

Compartir este artículo:

0 Comentarios

Crear un comentario
Ingresar para Comentar
divider graphic

Otros Tutoriales

Sep 09, 2023

Trabajando el Pipeline de Machine Learning con PyCaret Parte 4

Antes de finalizar el modelo, es aconsejable realizar una comprobación final mediante la predicción del conjunto de test/hold-out y la revisión de ...

Daniel Morales
Por Daniel Morales
Sep 02, 2023

Trabajando el Pipeline de Machine Learning con PyCaret Parte 3

create_model es la función más granular de PyCaret y a menudo es la base de la mayoría de las funcionalidades de PyCaretComo su nombre lo indica, e...

Daniel Morales
Por Daniel Morales
Aug 26, 2023

Trabajando el Pipeline de Machine Learning con PyCaret Parte 2

Ahora vamos a configurar el ambiente de PycaretLa función setup() inicializa el entorno en pycaret y crea la tubería de transformación para prepara...

Daniel Morales
Por Daniel Morales
Partners

graphical divider
Icon

Únete a nuestra comunidad privada en Slack

Manténgase al día participando de ésta gran comunidad de data scientists en latinoamérica. Hablamos sobre los retos, proyectos y competiciones en data science, trabajos en data science, cómo practicar las habilidades, qué podemos aprender y mucho más!

 
Te enviaremos un link de invitación a tu email inmediatamente.
arrow-up icon