Usando Predictive Power Score Para Hacer Correlaciones - Parte 2

Daniel Morales
Por Daniel Morales - Screencast # 4
Oct 20, 2020


Aqui podrás encontrar la Parte 1 de Usando PPS para hacer Correlaciones.

Usando Predictive Power Score Para Hacer Correlaciones - Parte 2

Comparando el PPS VS correlación
  • A esto lo llamamos efectos no lineales y asimetría
  • Usemos una relación cuadrática típica: la característica x es una variable uniforme que va de -2 a 2 y el objetivo y es el cuadrado de x más algún error.
  • En este caso, x puede predecir muy bien y porque hay una clara relación no lineal y cuadrática, después de todo así es como generamos los datos
  • Sin embargo, esto no es cierto en la otra dirección de y a x. Por ejemplo, si y es 4, es imposible predecir si x era aproximadamente 2 o -2
  •  Por lo tanto, la relación de predicción es asimétrica y las puntuaciones deben reflejar esto.
  • ¿Cuáles son los valores de las puntuaciones en este ejemplo? Si no sabes ya lo que buscas, la correlación te dejará colgado porque la correlación es 0
  • Tanto de x a y como de y a x porque la correlación es simétrica
  • Sin embargo, el PPS de x a y es 0.67, detectando la relación no lineal y salvando el día
  • Sin embargo, el PPS no es 1 porque existe algún error en la relación
  • En la otra dirección, el PPS de y a x es 0 porque su predicción no puede ser mejor que la línea de base ingenua y por lo tanto el puntaje es 0
Conclusiones

  • Además de su mecanismo habitual de selección de características, puede utilizar el PPS para encontrar buenos predictores para su columna objetivo.
  • También puede eliminar las características que sólo añaden ruido aleatorio. 
  • Esas características a veces siguen teniendo una puntuación alta en la métrica de importancia de las características.
  • Además, puede eliminar las características que pueden ser predichas por otras características porque no añaden información nueva
  • Además, puedes identificar pares de características mutuamente predictivas en la matriz PPS - esto incluye características fuertemente correlacionadas pero también detectará relaciones no lineales.
  • Detectar la fuga de información: Utilice la matriz PPS para detectar la fuga de información entre las variables - incluso si la fuga de información es mediada por otras variables.
  • Normalización de datos: Encontrar estructuras de entidades en los datos a través de la interpretación de la matriz PPS como un gráfico dirigido. Esto puede ser sorprendente cuando los datos contienen estructuras latentes que antes eran desconocidas. 
  • Por ejemplo: el TicketID en el conjunto de datos del Titanic es a menudo un indicador para una familia

“Usando Predictive Power Score Para Hacer Correlaciones - Parte 2”
– Daniel Morales twitter social icon Tweet

Compartir este artículo:

0 Comentarios

Crear un comentario
Ingresar para Comentar
divider graphic

Otros Tutoriales

6

Trabajando el Pipeline de Machine Learning con PyCaret - Parte 4

PrediccionAntes de finalizar el modelo, es aconsejable realizar una comprobación final mediante la predicción del conjunto de test/hold-out y la re...

Daniel Morales
Por Daniel Morales
7

Trabajando el Pipeline de Machine Learning con PyCaret - Parte 3

Creando el Modelocreate_model es la función más granular de PyCaret y a menudo es la base de la mayoría de las funcionalidades de PyCaretComo su no...

Daniel Morales
Por Daniel Morales
12

Trabajando el Pipeline de Machine Learning con PyCaret - Parte 2

Puedes acceder a la Parte#1 de Trabajando el Pipeline de Machine Learning con PyCaret aqui: Entorno de PyCaretAhora vamos a configurar el ambiente ...

Daniel Morales
Por Daniel Morales
Partners

arrow-up icon