Je me serais attendu à ce que le coefficient de corrélation soit identique à une pente de régression (bêta). Cependant, juste après avoir comparé les deux, ils sont différents. En quoi diffèrent-ils - quelles informations donnent-ils?
Je me serais attendu à ce que le coefficient de corrélation soit identique à une pente de régression (bêta). Cependant, juste après avoir comparé les deux, ils sont différents. En quoi diffèrent-ils - quelles informations donnent-ils?
Réponses:
En supposant que vous parlez d'un modèle de régression simple estimé par les moindres carrés, nous savons d' après wikipedia que Par conséquent, les deux ne coïncident que lorsque . Autrement dit, elles ne coïncident que lorsque les deux variables sont sur la même échelle, dans un sens. Le moyen le plus courant d’atteindre cet objectif est la normalisation, comme indiqué par @gung. S D ( Y i ) = S D ( X i )
Dans un sens, les deux vous donnent la même information - ils vous disent chacun la force de la relation linéaire entre et . Mais, ils vous donnent chacun des informations distinctes (sauf, bien sûr, quand ils sont exactement les mêmes):Y i
La corrélation vous donne une mesure bornée pouvant être interprétée indépendamment de l'échelle des deux variables. Plus la corrélation estimée est proche de , plus les deux sont proches d'une relation linéaire parfaite . La pente de régression, prise isolément, ne vous dit pas cette information.
La pente de régression donne une quantité utile interprétée comme la variation estimée de la valeur attendue de pour une valeur donnée de . Plus précisément, vous indique le changement de la valeur attendue de correspondant à une augmentation de 1 unité de . Cette information ne peut être déduite du seul coefficient de corrélation.X i β Y i X i
Avec une régression linéaire simple ( par exemple, seulement 1 covariable), la pente est le même que celui de Pearson si les deux variables ont été normalisées en premier. (Pour plus d'informations, ma réponse peut être utile ici .) Lorsque vous effectuez une régression multiple, cela peut être plus compliqué à cause de la multicolinéarité , etc. r
Le coefficient de corrélation mesure le "resserrement" de la relation linéaire entre deux variables et est limité entre -1 et 1 inclus. Les corrélations proches de zéro ne représentent aucune association linéaire entre les variables, alors que les corrélations proches de -1 ou +1 indiquent une relation linéaire forte. Intuitivement, plus il vous est facile de tracer une ligne de meilleur ajustement dans un diagramme de dispersion, plus elles sont corrélées.
La pente de régression mesure "l'inclinaison" de la relation linéaire entre deux variables et peut prendre n'importe quelle valeur de à . Les pentes proches de zéro signifient que la variable de réponse (Y) change lentement à mesure que la variable de prédicteur (X) change. Les pentes plus éloignées de zéro (dans le sens négatif ou positif) signifient que la réponse change plus rapidement à mesure que le prédicteur change. Intuitivement, si vous tracez une ligne de meilleur ajustement dans un diagramme de dispersion, plus elle est raide, plus votre pente est éloignée de zéro.+ ∞
Ainsi, le coefficient de corrélation et la pente de régression DOIVENT avoir le même signe (+ ou -), mais n’auront presque jamais la même valeur.
Pour simplifier, cette réponse suppose une régression linéaire simple.
Le coefficient de corrélation de Pearson est sans dimension et est compris entre -1 et 1, quelles que soient la dimension et l'échelle des variables d'entrée.
Si (par exemple) vous entrez une masse en grammes ou en kilogrammes, cela ne fait aucune différence avec la valeur de , alors que cela fera une énorme différence pour le gradient / la pente (qui a une dimension et est mise à l'échelle en conséquence ... de même, ne changerait rien si la balance était ajustée de quelque manière que ce soit, y compris en utilisant des livres ou des tonnes).
Une démonstration simple (excuses pour l’utilisation de Python!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
montre que même si la pente a été multipliée par 10.
Je dois avouer que c'est une astuce qui vient à être mis à l' échelle entre -1 et 1 (un de ces cas où le numérateur ne peut jamais avoir une valeur absolue supérieure au dénominateur).
Comme @Macro l’a expliqué en détail ci-dessus, la pente , vous avez donc raison de penser que le de Pearson est lié à la pente, aux écarts-types (qui restaure efficacement les dimensions et les échelles!).
Au début, je trouvais étrange que la formule semble suggérer qu'une ligne mal ajustée (faible ) donne un gradient plus faible; J'ai ensuite tracé un exemple et réalisé que, étant donné un gradient, faire varier le "relâchement" entraînait la diminution de mais que cela était compensé par une augmentation proportionnelle de .
Dans le graphique ci-dessous, quatre jeux de données sont tracés:
On peut voir que la variance affecte sans affecter nécessairement , et que les unités de mesure peuvent affecter l’échelle et donc sans affecter