Comparando el PPS VS correlación
A esto lo llamamos efectos no lineales y asimetría
Usemos una relación cuadrática típica: la característica x es una variable uniforme que va de -2 a 2 y el objetivo y es el cuadrado de x más algún error.
En este caso, x puede predecir muy bien y porque hay una clara relación no lineal y cuadrática, después de todo así es como generamos los datos
Sin embargo, esto no es cierto en la otra dirección de y a x. Por ejemplo, si y es 4, es imposible predecir si x era aproximadamente 2 o -2
Por lo tanto, la relación de predicción es asimétrica y las puntuaciones deben reflejar esto.
¿Cuáles son los valores de las puntuaciones en este ejemplo? Si no sabes ya lo que buscas, la correlación te dejará colgado porque la correlación es 0
Tanto de x a y como de y a x porque la correlación es simétrica
Sin embargo, el PPS de x a y es 0.67, detectando la relación no lineal y salvando el día
Sin embargo, el PPS no es 1 porque existe algún error en la relación
En la otra dirección, el PPS de y a x es 0 porque su predicción no puede ser mejor que la línea de base ingenua y por lo tanto el puntaje es 0
Conclusiones
Además de su mecanismo habitual de selección de características, puede utilizar el PPS para encontrar buenos predictores para su columna objetivo.
También puede eliminar las características que sólo añaden ruido aleatorio.
Esas características a veces siguen teniendo una puntuación alta en la métrica de importancia de las características.
Además, puede eliminar las características que pueden ser predichas por otras características porque no añaden información nueva
Además, puedes identificar pares de características mutuamente predictivas en la matriz PPS - esto incluye características fuertemente correlacionadas pero también detectará relaciones no lineales.
Detectar la fuga de información: Utilice la matriz PPS para detectar la fuga de información entre las variables - incluso si la fuga de información es mediada por otras variables.
Normalización de datos: Encontrar estructuras de entidades en los datos a través de la interpretación de la matriz PPS como un gráfico dirigido. Esto puede ser sorprendente cuando los datos contienen estructuras latentes que antes eran desconocidas.
Por ejemplo: el TicketID en el conjunto de datos del Titanic es a menudo un indicador para una familia
A esto lo llamamos efectos no lineales y asimetría
Usemos una relación cuadrática típica: la característica x es una variable uniforme que va de -2 a 2 y el objetivo y es el cuadrado de x más algún error.
En este caso, x puede predecir muy bien y porque hay una clara relación no lineal y cuadrática, después de todo así es como generamos los datos
Sin embargo, esto no es cierto en la otra dirección de y a x. Por ejemplo, si y es 4, es imposible predecir si x era aproximadamente 2 o -2
Por lo tanto, la relación de predicción es asimétrica y las puntuaciones deben reflejar esto.
¿Cuáles son los valores de las puntuaciones en este ejemplo? Si no sabes ya lo que buscas, la correlación te dejará colgado porque la correlación es 0
Tanto de x a y como de y a x porque la correlación es simétrica
Sin embargo, el PPS de x a y es 0.67, detectando la relación no lineal y salvando el día
Sin embargo, el PPS no es 1 porque existe algún error en la relación
En la otra dirección, el PPS de y a x es 0 porque su predicción no puede ser mejor que la línea de base ingenua y por lo tanto el puntaje es 0
Conclusiones
Además de su mecanismo habitual de selección de características, puede utilizar el PPS para encontrar buenos predictores para su columna objetivo.
También puede eliminar las características que sólo añaden ruido aleatorio.
Esas características a veces siguen teniendo una puntuación alta en la métrica de importancia de las características.
Además, puede eliminar las características que pueden ser predichas por otras características porque no añaden información nueva
Además, puedes identificar pares de características mutuamente predictivas en la matriz PPS - esto incluye características fuertemente correlacionadas pero también detectará relaciones no lineales.
Detectar la fuga de información: Utilice la matriz PPS para detectar la fuga de información entre las variables - incluso si la fuga de información es mediada por otras variables.
Normalización de datos: Encontrar estructuras de entidades en los datos a través de la interpretación de la matriz PPS como un gráfico dirigido. Esto puede ser sorprendente cuando los datos contienen estructuras latentes que antes eran desconocidas.
Por ejemplo: el TicketID en el conjunto de datos del Titanic es a menudo un indicador para una familia
“Usando Predictive Power Score Para Hacer Correlaciones Parte 2”– Daniel MoralesTweet