Comment comprendre la formule du coefficient de corrélation?


15

Quelqu'un peut-il m'aider à comprendre la formule de corrélation de Pearson? l'échantillon = la moyenne des scores produits des types de variables et .rXOui

Je comprends en quelque sorte pourquoi ils doivent normaliser et , mais comment comprendre les produits des deux scores z? XOui

Cette formule est également appelée "coefficient de corrélation produit-moment", mais quelle est la justification de l'action du produit? Je ne sais pas si j'ai clarifié ma question, mais je veux juste me souvenir intuitivement de la formule.


11
Vous voudrez peut-être lire le document "Treize façons d'examiner le coefficient de corrélation" (Rodgers et Nicewander 1988). Comme son titre l'indique, il traite de treize vues intuitives différentes du coefficient de corrélation. J'espère donc qu'au moins un cliquera :)
demi-passe le

10
13 manières peuvent être trouvées ici
Dimitriy V. Masterov

4
Une 14e façon de comprendre la corrélation (en termes de produits des scores z) revient à comprendre la covariance des variables standardisées, comme illustré sur stats.stackexchange.com/questions/18058/… .
whuber

4
... Et une 15e façon utilise les cercles affichés sur stats.stackexchange.com/a/46508/919 : un ajustement par les moindres carrés minimise la surface totale des cercles (il y a au moins deux façons de le faire lorsque les points pas exactement alignés) et le coefficient de corrélation est alors leur aire moyenne (lorsque les deux variables sont standardisées).
whuber

Réponses:


14

Dans les commentaires, 15 façons de comprendre le coefficient de corrélation ont été suggérées:


Les 13 voies discutées dans l'article de Rodgers et Nicewander (The American Statistician, février 1988) sont

  1. Une fonction des scores et des moyens bruts,

    r=(Xje-X¯)(Ouije-Oui¯)(Xje-X¯)2(Ouije-Oui¯)2.
  2. Covariance standardisée,

    r=sXOui/(sXsOui)

    où est la covariance de l'échantillon et et sont les écarts-types de l'échantillon. s X s YsXOuisXsOui

  3. Pente normalisée de la ligne de régression,

    r=bOuiXsXsOui=bXOuisOuisX,

    où et sont les pentes des droites de régression. b X YbOuiXbXOui

  4. La moyenne géométrique des deux pentes de régression,

    r=±bOuiXbXOui.
  5. La racine carrée du rapport de deux variances (proportion de la variabilité prise en compte),

    r=(Ouije-Ouije^)2(Ouije-Oui¯)2=SSREgSSTOT=sOui^sOui.
  6. Le produit croisé moyen des variables standardisées,

    r=zXzOui/N.
  7. Une fonction de l'angle entre les deux lignes de régression normalisées. Les deux droites de régression ( vs et vs ) sont symétriques par rapport à la diagonale. Soit l'angle entre les deux lignes soit . alorsX X Y βOuiXXOuiβ

    r=sec(β)±tan(β).
  8. Une fonction de l'angle entre les deux vecteurs variables,

    r=cos(α).
  9. Une variance redimensionnée de la différence entre les scores normalisés. Laisser être la différence entre normalisés et des variables pour chaque observation, X YzYzXXY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. Estimé à partir de la règle du "ballon",

    r1(h/H)2

    où est la plage verticale de l'ensemble du diagramme de dispersion et est la plage passant par le "centre de la distribution sur l' axe " (c'est-à-dire par le point de moyenne).X - Y h XHXYhX

  11. En relation avec les ellipses bivariées de l'isoconcentration,

    r=D2d2D2+d2

    où et sont respectivement les longueurs des axes majeur et mineur. également égal à la pente de la ligne tangente d'un isocontour (en coordonnées normalisées) au point où le contour traverse l'axe vertical.d rDdr

  12. Une fonction des statistiques de test des expériences conçues,

    r=tt2+n2

    où est la statistique du test dans un échantillon deux échantillons indépendants pour une expérience conçue avec deux conditions de traitement (codé ) et est le nombre total combiné d'observations dans les deux groupes de traitement.ttX=0,1n

  13. Le rapport de deux moyens. Supposons une normalité bivariée et normalisons les variables. Sélectionnez une valeur arbitrairement grande de . alorsXcX

    r=E(Y|X>Xc)E(X|X>Xc).

(La plupart de ces informations sont textuelles, avec de très légères modifications dans une partie de la notation.)

Certaines autres méthodes (peut-être originales sur ce site) sont

  • Via des cercles. est la pente de la droite de régression en coordonnées normalisées. Cette ligne peut être caractérisée de différentes manières, y compris géométriques, telles que la minimisation de la surface totale des cercles tracés entre la ligne et les points de données dans un nuage de points.r

  • En colorant des rectangles. La covariance peut être évaluée en colorant des rectangles dans un nuage de points (c'est-à-dire en additionnant des zones signées de rectangles). Lorsque le nuage de points est normalisé, la quantité nette de couleur - l'erreur totale signée - est .r


2
Merci, @Avraham, d'avoir essayé de clore ce fil sans réponse en publiant une réponse ici.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.