La corrélation ou le coefficient de détermination est-il lié au pourcentage de valeurs qui tombent le long d'une ligne de régression?


12

La corrélation, , est une mesure de l'association linéaire entre deux variables. Le coefficient de détermination, , est une mesure de la proportion de la variabilité d'une variable qui peut être "expliquée par" la variation de l'autre.r 2rr2

Par exemple, si est la corrélation entre deux variables, alors . Ainsi, 64% de la variabilité dans l'un s'explique par des différences dans l'autre. Droite?r 2 = 0,64r=0.8r2=0.64

Ma question est, pour l'exemple indiqué, l'une ou l'autre des affirmations suivantes est-elle correcte?

  1. 64% des valeurs tombent le long de la ligne de régression
  2. 80% des valeurs tombent le long de la ligne de régression

Le terme "tomber" est imprécis. Il semble qu'au moins certaines réponses l'interprètent comme «reposant exactement sur», et là, la réponse n'est clairement pas (bien que cette idée puisse conduire à une mesure intéressante d'association linéaire qui pourrait convenir dans quelques situations particulières - par exemple, où était un mélange de pas de bruit / d'erreur la plupart du temps, et parfois des erreurs, comme avec un processus de contamination - et alors vous estimeriez la proportion de données non contaminées). Si vous vouliez dire autre chose que "se coucher exactement", vous auriez besoin de préciser quelle était cette signification.
Glen_b -Reinstate Monica

Réponses:


8

La première partie de ceci est fondamentalement correcte - mais c'est 64% de la variation qui est expliquée par le modèle. Dans une régression linéaire simple: Y ~ X, si est 0,64, cela signifie que 64% de la variation de Y est déterminée par la relation linéaire entre Y et X. Il est possible d'avoir une relation forte avec très faible , si la relation est fortement non linéaire.R 2R2R2

Concernant vos deux questions numérotées, aucune n'est correcte. En effet, il est possible qu'aucun des points ne se situe exactement sur la droite de régression. Ce n'est pas ce qui est mesuré. Il s'agit plutôt de savoir à quel point le point moyen est proche de la ligne. Si tous ou presque tous les points sont proches (même si aucun n'est exactement sur la ligne), alors sera élevé. Si la plupart des points sont éloignés de la ligne, sera faible. Si la plupart des points sont proches mais que quelques-uns sont loin, alors la régression est incorrecte (problème des valeurs aberrantes). D'autres choses peuvent aussi mal tourner.R 2R2R2

De plus, j'ai laissé la notion de «loin» assez vague. Cela dépendra de la répartition des X. Préciser ces notions fait partie de ce que vous apprenez dans un cours sur la régression; Je ne vais pas entrer ici.


Et bien ça m'a beaucoup éclairé! Merci Mimshot et Peter Flom! Merci beaucoup à vous deux! :)
Bradex

1
+1, bonne réponse, cela vous dérangerait d'ajouter quelque chose comme "En effet, [il est possible que] aucun des points ne puisse mentir ...". En outre, il pourrait être utile de discuter du fait que la notion de la distance entre les points et la ligne est également relative à la répartition des X.
gung - Rétablir Monica


2

Niether 1 ni 2 est correct.

yyxx

yi=b+mxi+ϵi

ϵiN(0,σ2)R2=.64yx

y^i=b+mxi

alors

10.64=0.36=var(yyy^y^)var(yy)
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.