Comment le coefficient de corrélation diffère-t-il de la pente de régression?

69

Je me serais attendu à ce que le coefficient de corrélation soit identique à une pente de régression (bêta). Cependant, juste après avoir comparé les deux, ils sont différents. En quoi diffèrent-ils - quelles informations donnent-ils?

regression correlation

— luciano
source

3

si elles sont normalisées, elles sont identiques. mais pensez à ce qui se passe lorsque vous faites un changement d'unités ...

— nicolas

Je pense que les réponses les mieux notées à ce Q (et peut-être même mon A à lui où je montre que le coefficient de corrélation peut être vu comme la valeur absolue de la moyenne géométrique des deux pentes que nous obtenons si nous régressons y sur x et x sur y, respectivement) sont également pertinents ici

— statmerkur

82

En supposant que vous parlez d'un modèle de régression simple estimé par les moindres carrés, nous savons d' après wikipedia que Par conséquent, les deux ne coïncident que lorsque . Autrement dit, elles ne coïncident que lorsque les deux variables sont sur la même échelle, dans un sens. Le moyen le plus courant d’atteindre cet objectif est la normalisation, comme indiqué par @gung.

Y_{i} = α + β X_{i} + ε_{i}

$Y_i = \alpha + \beta X_i + \varepsilon_i$

\hat{β} = c o r (Y_{i}, X_{i}) \cdot \frac{S D (Y_{i})}{S D (X_{i})}

$\hat {\beta} = {\rm cor}(Y_i, X_i) \cdot \frac{ {\rm SD}(Y_i) }{ {\rm SD}(X_i) }$

S D (Y_{i}) = S D (X_{i})

${\rm SD}(Y_i) = {\rm SD}(X_i)$

Dans un sens, les deux vous donnent la même information - ils vous disent chacun la force de la relation linéaire entre et . Mais, ils vous donnent chacun des informations distinctes (sauf, bien sûr, quand ils sont exactement les mêmes): $X_i$ $Y_i$

La corrélation vous donne une mesure bornée pouvant être interprétée indépendamment de l'échelle des deux variables. Plus la corrélation estimée est proche de , plus les deux sont proches d'une relation linéaire parfaite . La pente de régression, prise isolément, ne vous dit pas cette information. $\pm 1$
La pente de régression donne une quantité utile interprétée comme la variation estimée de la valeur attendue de pour une valeur donnée de . Plus précisément, vous indique le changement de la valeur attendue de correspondant à une augmentation de 1 unité de . Cette information ne peut être déduite du seul coefficient de corrélation. $Y_i$ $X_i$ $\hat \beta$ $Y_i$ $X_i$

— Macro
source

En corollaire de cette réponse, notez que la régression de x contre y n'est pas l'inverse de la régression de y contre x!

— Aginensky

23

Avec une régression linéaire simple ( par exemple, seulement 1 covariable), la pente est le même que celui de Pearson si les deux variables ont été normalisées en premier. (Pour plus d'informations, ma réponse peut être utile ici .) Lorsque vous effectuez une régression multiple, cela peut être plus compliqué à cause de la multicolinéarité , etc. $\beta_1$ $r$

— gung - Rétablir Monica
source

14

Le coefficient de corrélation mesure le "resserrement" de la relation linéaire entre deux variables et est limité entre -1 et 1 inclus. Les corrélations proches de zéro ne représentent aucune association linéaire entre les variables, alors que les corrélations proches de -1 ou +1 indiquent une relation linéaire forte. Intuitivement, plus il vous est facile de tracer une ligne de meilleur ajustement dans un diagramme de dispersion, plus elles sont corrélées.

La pente de régression mesure "l'inclinaison" de la relation linéaire entre deux variables et peut prendre n'importe quelle valeur de à . Les pentes proches de zéro signifient que la variable de réponse (Y) change lentement à mesure que la variable de prédicteur (X) change. Les pentes plus éloignées de zéro (dans le sens négatif ou positif) signifient que la réponse change plus rapidement à mesure que le prédicteur change. Intuitivement, si vous tracez une ligne de meilleur ajustement dans un diagramme de dispersion, plus elle est raide, plus votre pente est éloignée de zéro. $-\infty$ $+\infty$

Ainsi, le coefficient de corrélation et la pente de régression DOIVENT avoir le même signe (+ ou -), mais n’auront presque jamais la même valeur.

Pour simplifier, cette réponse suppose une régression linéaire simple.

— Sous-marinier
source

vous indiquez que la version bêta peut être dans , mais n'y a-t-il pas une liaison au cas par cas sur la version bêta impliquée par le rapport de variance de x et y?

- inf, inf

$-\inf, \inf$

— Matifou

1

Le coefficient de corrélation de Pearson est sans dimension et est compris entre -1 et 1, quelles que soient la dimension et l'échelle des variables d'entrée.

Si (par exemple) vous entrez une masse en grammes ou en kilogrammes, cela ne fait aucune différence avec la valeur de , alors que cela fera une énorme différence pour le gradient / la pente (qui a une dimension et est mise à l'échelle en conséquence ... de même, ne changerait rien si la balance était ajustée de quelque manière que ce soit, y compris en utilisant des livres ou des tonnes). $r$ $r$

Une démonstration simple (excuses pour l’utilisation de Python!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

montre que même si la pente a été multipliée par 10. $r = 0.969363$

Je dois avouer que c'est une astuce qui vient à être mis à l' échelle entre -1 et 1 (un de ces cas où le numérateur ne peut jamais avoir une valeur absolue supérieure au dénominateur). $r$

Comme @Macro l’a expliqué en détail ci-dessus, la pente , vous avez donc raison de penser que le de Pearson est lié à la pente, aux écarts-types (qui restaure efficacement les dimensions et les échelles!). $b = r(\frac{\sigma_{y}}{\sigma_{x}})$ $r$

Au début, je trouvais étrange que la formule semble suggérer qu'une ligne mal ajustée (faible ) donne un gradient plus faible; J'ai ensuite tracé un exemple et réalisé que, étant donné un gradient, faire varier le "relâchement" entraînait la diminution de mais que cela était compensé par une augmentation proportionnelle de . $r$ $r$ $\sigma_{y}$

Dans le graphique ci-dessous, quatre jeux de données sont tracés: $x,y$

les résultats de (donc le gradient , , , ) ... notez que $y=3x$ $b=3$ $r=1$ $\sigma_{x}=2.89$ $\sigma_{y}=8.66$ $\frac{\sigma_{y}}{\sigma_{x}}=3$
le même mais varié par un nombre aléatoire, avec , , , à partir duquel on peut calculer $r = 0.2447$ $\sigma_{x}=2.89$ $\sigma_{y}=34.69$ $b= 2.94$
$y=15x$ (donc et , , ) $b=15$ $r=1$ $\sigma_{x}=0.58$ $\sigma_{y}=8.66$
le même que (2) mais avec une portée réduite donc (et toujours , , ) $x$ $b= 14.70$ $r = 0.2447$ $\sigma_{x}=0.58$ $\sigma_{y}=34.69$

On peut voir que la variance affecte sans affecter nécessairement , et que les unités de mesure peuvent affecter l’échelle et donc sans affecter $r$ $b$ $b$ $r$

— James
source