Comment expliqueriez-vous la différence entre corrélation et covariance?

110

Pour poursuivre sur cette question, comment expliqueriez-vous la covariance à quelqu'un qui ne comprend que la moyenne? , qui aborde la question de l’explication de la covariance à un laïc, a soulevé une question similaire dans mon esprit.

Comment expliquer à un néophyte de statistiques la différence entre covariance et corrélation ? Il semble que les deux font référence au changement d'une variable liée à une autre variable.

Semblable à la question mentionnée, un manque de formules serait préférable.

correlation covariance

— pmgjones
source

110

Le problème des covariances est qu’elles sont difficiles à comparer: lorsque vous calculez la covariance d’un ensemble de hauteurs et de poids, exprimée en mètres et en kilogrammes (respectivement), vous obtenez une covariance différente de celle utilisée dans d’autres unités ( ce qui pose déjà un problème aux personnes qui font la même chose avec ou sans le système métrique!), mais il sera également difficile de dire si (p. ex.) la taille et le poids sont plus «covary» que, disons, la longueur de vos orteils et de vos doigts , simplement parce que la «échelle» sur laquelle la covariance est calculée est différente.

La solution consiste à «normaliser» la covariance: vous divisez la covariance par quelque chose qui représente la diversité et l’échelle dans les deux covariables et vous obtenez une valeur assurée comprise entre -1 et 1: la corrélation. Quelle que soit l'unité dans laquelle se trouvaient vos variables d'origine, vous obtiendrez toujours le même résultat, ce qui vous permettra également de comparer, dans une certaine mesure, si deux variables "corrèlent" plus de deux autres, simplement en comparant leur corrélation.

Remarque: ce qui précède suppose que le lecteur comprend déjà le concept de covariance.

— Nick Sabbe
source

2

+1 Vouliez-vous écrire "corrélation" au lieu de "covariance" dans la dernière phrase?

— whuber

Êtes-vous sûr de ne pas pouvoir comparer les covariances avec différentes unités? Les unités passent par la covariance multipliée - si votre X est dedans cmet votre Y ests , alors votre . Et vous pouvez ensuite multiplier par le résultat par le facteur de conversion d'unité. Essayez dans R:

c o v (X, Y) = z c m \cdot s

$cov(X,Y)=z\ cm\cdot s$ cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)

— naught101

3

@ naught101 J'imagine que le fait est que si je vous disais que et rien d'autre, vous ne saurez pas si est hautement prédictif de ou non, alors que si je dit que vous avez vous auriez quelque chose d’un peu plus interprétable.

Cov (X, Y) = 10^{1} 0

$\mbox{Cov}(X, Y) = 10^10$

X

$X$

Y

$Y$

Cor (X, Y) = .9

$\mbox{Cor}(X, Y) = .9$

— mec

@guy: Il s'agirait de covariances sans unités: PI pense que l'important est que vous ne pouvez pas facilement comparer les covariances de deux ensembles de données présentant des variances différentes. Par exemple, si vous avez la relation B = 2 * A et deux jeux de données {A1, B1} et {A2, B2}, où A1 a une variance de 0,5 et A2, la variance est 2, alors la sera beaucoup plus grand que , même si la relation est exactement la même.

c o v (A 2, B 2)

$cov(A2, B2)$

c o v (A 1, B 1)

$cov(A1, B1)$

— naught101

3

Donc, en termes simples, corrélation> covariance

— Karl Morrison

58

Les exigences de ce type de questions me paraissent un peu bizarres. Voici un concept / une formule mathématique , mais je souhaite en parler dans un contexte totalement dépourvu de symboles mathématiques. Je pense aussi qu'il faudrait préciser que l'algèbre nécessaire à la compréhension des formules devrait être enseignée à la plupart des gens avant l'enseignement supérieur (aucune compréhension de l'algèbre matricielle n'est nécessaire, une simple algèbre suffit).

Donc, au début, au lieu d’ignorer complètement la formule et d’en parler dans des analogies magiques et heuristiques, examinons simplement la formule et essayons d’expliquer les composants individuels par petites étapes. La différence en termes de covariance et de corrélation, lorsque l’on regarde les formules, devrait devenir claire. Alors que parler en termes d'analogies et d'heuristiques, je soupçonne, rendrait obsolètes deux concepts relativement simples et leurs différences dans de nombreuses situations.

Commençons donc par une formule pour l' échantillon de covariance (celles que je viens de prendre et que j'ai adoptées de wikipedia);

$\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$

Pour que tout le monde soit au courant, définissons explicitement tous les éléments et toutes les opérations de la formule.

$x_i$ et sont chacun des mesures de deux attributs distincts de la même observation $y_i$
$\bar{x}$ et sont les moyennes (ou moyennes) de chaque attribut $\bar{y}$
Pour , disons simplement que cela signifie que nous divisons le résultat final par . $\frac{1}{n-1}$ ${n-1}$
$\sum_{i=1}^{n}$ peut être un symbole étranger pour certains, il serait donc probablement utile d'expliquer cette opération. Il est tout simplement la somme de tous séparés observations, et représente le nombre total d'observations. $i$ $n$

À ce stade, je pourrais présenter un exemple simple, pour mettre un visage sur les éléments et les opérations pour ainsi dire. Ainsi, par exemple, créons simplement un tableau, où chaque ligne correspond à une observation (et où et sont étiquetés de manière appropriée). On pourrait probablement rendre ces exemples plus spécifiques (par exemple, représente l’âge et poids), mais cela n’a aucune importance pour notre discussion. $x$ $y$ $x$ $y$

À ce stade, si vous estimez que l'opération de somme de la formule n'a pas été entièrement comprise, vous pouvez l'introduire à nouveau dans un contexte beaucoup plus simple. Disons simplement que est la même chose que dans cet exemple; $\sum_{i=1}^{n}(x_i)$

Maintenant, ce gâchis devrait être corrigé et nous pourrons entrer dans la deuxième partie de la formule, . Maintenant, en supposant que les gens sachent déjà ce que signifient les moyennes, et , et je dirais, étant hypocrites de mes propres commentaires plus tôt dans le post, on peut simplement parler de la moyenne en termes de heuristiques simples (par exemple le milieu de la distribution). On peut alors prendre ce processus, une opération à la fois. L'instruction $(x_i-\bar{x})(y_i-\bar{y})$ $\bar{x}$ $\bar{y}$ $(x_i-\bar{x})$ examine uniquement les écarts / distance entre chaque observation et la moyenne de toutes les observations pour cet attribut particulier. Par conséquent, lorsqu'une observation est plus éloignée de la moyenne, cette opération aura une valeur plus élevée. On peut alors se référer à l'exemple de table donné et simplement démontrer l'opération sur le vecteur d'observations . $x$

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

L'opération est la même pour le vecteur , mais vous pouvez également présenter cette opération pour le renforcement. $y$

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

Maintenant, les termes et ne devraient pas être ambigus, et nous pouvons passer à l'opération suivante, en multipliant ces résultats ensemble, . Comme le souligne gung dans les commentaires, on parle souvent de produit croisé (peut-être un exemple utile à rappeler si on introduisait une algèbre matricielle de base pour les statistiques). $(x_i-\bar{x})$ $(y_i-\bar{y})$ $(x_i-\bar{x})\cdot(y_i-\bar{y})$

Prenez note de ce qui se passe lors de la multiplication, si deux observations sont toutes deux très éloignées de la moyenne, l'observation résultante aura une valeur positive encore plus grande (la même chose est vraie si les deux observations se situent à une grande distance au-dessous de la moyenne, c'est-à-dire multiplier deux négatifs. est égal à positif). Notez également que si une observation est supérieure à la moyenne et l'autre, bien inférieure à la moyenne, la valeur résultante sera grande (en termes absolus) et négative (car une fois positive, une négative équivaut à un nombre négatif). Enfin, notez que lorsqu'une valeur est très proche de la moyenne pour l'une ou l'autre observation, la multiplication des deux valeurs donnera un petit nombre. Encore une fois, nous pouvons simplement présenter cette opération dans un tableau.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

Maintenant, s’il y a des statisticiens dans la salle, ils devraient être bouillants d’anticipation à ce stade. Nous pouvons voir tous les éléments distincts de ce qu'est une covariance et de la façon dont elle est calculée entrent en jeu. Il ne reste plus qu’à résumer le résultat final dans le tableau précédent, diviser par et le tour est joué , la covariance ne doit plus être mystique (toutes ne définissant qu’un seul symbole grec). $n-1$

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

À ce stade, vous voudrez peut-être préciser d'où vient le chiffre 5, mais cela devrait être aussi simple que de renvoyer au tableau et de compter le nombre d'observations (laissez à nouveau la différence entre l'échantillon et la population à un autre moment).

Maintenant, la covariance en elle-même ne nous dit pas grand-chose (elle le peut, mais il est inutile à ce stade d’entrer dans des exemples intéressants sans recourir à des références magiques et non définies au public). Dans un bon scénario, vous n'aurez pas besoin de vraiment expliquer pourquoi nous devrions nous intéresser à la covariance. Dans d'autres circonstances, vous devrez simplement espérer que votre auditoire est captif et tiendra votre promesse. Mais, continuant à développer la différence entre la covariance et la corrélation, nous pouvons simplement renvoyer à la formule de corrélation. Pour éviter la phobie des symboles grecs, dites peut-être simplement que est le symbole commun utilisé pour représenter la corrélation. $\rho$

$\rho = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}$

Encore une fois, pour répéter, le numérateur dans la formule précédente est simplement la covariance telle que nous venons de la définir, et le dénominateur est la racine carrée du produit de la variance de chaque série. Si vous devez définir la variance elle-même, vous pouvez simplement dire que la variance est la même chose que la covariance d'une série avec elle-même (c'est-à-dire ). Et tous les concepts que vous avez introduits avec la covariance s'appliquent (c.-à-d. Si une série a beaucoup de valeurs très éloignées de sa moyenne, elle aura une variance élevée). Notez peut-être ici qu’une série ne peut pas avoir une variance négative (ce qui devrait logiquement découler des calculs présentés précédemment). $Cov(x,x) = Var(x)$

Donc, les seuls nouveaux composants que nous avons introduits sont au dénominateur, . Nous divisons donc la covariance que nous venons de calculer par le produit des variances de chaque série. On pourrait expliquer pourquoi la division par donnera toujours une valeur comprise entre -1 et 1, mais je soupçonne que l’inégalité de Cauchy – Schwarz devrait être laissée de côté de l’ordre du jour. cette discussion. Encore une fois, je suis un hypocrite et je recourt à certains, croyez-moi sur parole , mais nous pouvons à présent indiquer toutes les raisons pour lesquelles nous utilisons le coefficient de corrélation. On peut ensuite relier ces leçons de mathématiques aux heuristiques données dans les autres déclarations, telles que la réponse de Peter Flom. $Var(x)Var(y)$ $\sqrt{Var(x)Var(y)}$ à l'une des autres questions. Bien que cela ait été critiqué pour avoir introduit le concept en termes d'affirmations causales, cette leçon devrait également figurer à l'ordre du jour à un moment donné.

Je comprends que dans certaines circonstances, ce niveau de traitement ne serait pas approprié. Le sénat a besoin du résumé . Dans ce cas, vous pouvez vous référer aux heuristiques simples que les gens ont utilisées dans d’autres exemples, mais Rome n’a pas été construite en un jour. Et au sénat qui demande le résumé, si vous avez si peu de temps, vous devriez peut-être me croire sur parole, et vous dispenser des formalités des analogies et des points de balle.

— Andy W
source

4

Je suis tout à fait d’accord avec l’idée que la question est en quelque sorte en dehors du but de ce forum. La définition de la covariance comme est la plus claire. explication on peut proposer. Il n'utilise que la notion d'attente. Éviter la formule conduit à des versions nécessairement incomplètes et potentiellement trompeuses. Et cela ne permet pas au lecteur de calculer la covariance / corrélation dans une nouvelle situation. Pas le meilleur moyen de lutter contre l'innombrable.

cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

$\text{cov}(X,Y)=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]$

— Xi'an

14

+1, c'est plutôt bien. Je ne serais pas si critique des introductions conceptuelles, cependant. J'ai travaillé avec des gens suffisamment angoissés en mathématiques pour leur montrer une formule qui risquerait de les perdre. En général, je les familiarise avec l'intuition, puis je fais le calcul simplement et minutieusement (comme vous le faites ici) par la suite . De cette façon, ils apprennent simplement comment les mathématiques représentent ce qu'ils savent déjà, et s'ils décrochent mentalement, ils ont quand même appris les grandes idées. Comme point tangentiel, je travaille bien avec les mathématiques dans Excel, ce que je trouve très bon pour cela.

— gung - Réintégrer Monica

2

Quelques excuses (désolé): dans votre équation supérieure, vous divisez par , mais ensuite (correctement) discutez de la division par dans la puce associée; Je pourrais noter que est appelé le "produit croisé"; puisque vous avez parlé de la covariance de l’ échantillon , lorsque vous parlez de corrélation, je peux sauter l’essentiel sur et utiliser simplement ; enfin, la corrélation est calculée à partir de la covariance en la mettant à l'échelle par rapport aux écarts - types , et non aux variances, voir ici , par exemple.

N

$N$

N - 1

$N-1$

(x_{i} - \bar{x}) (y_{i} - \bar{y})

$(x_i-\bar{x})(y_i-\bar{y})$

ρ

$\rho$

r

$r$

— gung - Réintégrer Monica

Merci @gung, j'ai changé la faute de frappe dans la première formule, puis pour la corrélation, j'ai pris la racine carrée des variances multipliées (au lieu de définir l'écart-type). En utilisant rho par rapport à un autre symbole, je ne me sens pas trop dans les deux cas. Si j'enseignais et que j'avais un manuel, je voudrais probablement simplement me conformer au texte. Espérons qu'un autre symbole grec ne provoque pas le chaos!

— Andy W

1

Si je pouvais upvoter votre réponse 100 fois, je le ferais. Quelle explication terriblement lucide!

— Julian A.

10

$\sqrt{Var[x]Var[y]}$

En d’autres termes, la corrélation étant simplement une représentation de la covariance, le résultat doit être compris entre -1 (corrélation parfaitement inverse) et +1 (corrélation positive), en notant qu’une valeur proche de zéro signifie que deux variables ne sont pas corrélées.

La covariance est illimitée et manque de contexte pour se comparer à d'autres covariances. En normalisant / ajustant / normalisant les covariances en une corrélation, les ensembles de données peuvent être comparés plus facilement.

Comme vous pouvez l’imaginer, il existe différentes manières de normaliser / normaliser une statistique (telle que la covariance). La formule mathématique pour la relation entre la corrélation et la covariance reflète simplement la convention utilisée par les statisticiens (à savoir, l'ajustement en fonction de leurs écarts types):

r = \frac{c o v (x, y)}{\sqrt{V a r [x] V a r [y]}}

$r = \frac{cov(x,y)}{\sqrt{Var[x]Var[y]}}$

— D Dawg
source

5

Si vous connaissez l'idée de centrer et de normaliser, x-xbar doit centrer x à sa moyenne. Même chose pour y. La covariance centre donc simplement les données. La corrélation, cependant, centre non seulement les données, mais évolue également en utilisant l’écart type (normaliser). La multiplication et la somme sont le produit de points des deux vecteurs et indiquent comment ces deux vecteurs se comparent parallèlement (projection d'un vecteur sur l'autre). La division de (n-1) ou en prenant la valeur attendue est à l'échelle du nombre d'observations. Pensées?

— utilisateur31180
source

3

Pour autant que je l'ai compris. La corrélation est une version "normalisée" de la covariance.

— Karl Morrison
source

2

Comme l' attestent de nombreux messages , "normaliser" a de nombreuses significations. Lequel utilisez-vous?

— whuber

-3

La corrélation est mise à l'échelle entre -1 et +1 selon qu'il existe une corrélation positive ou négative et est sans dimension. La covariance varie toutefois de zéro, dans le cas de deux variables indépendantes, à Var (X), dans le cas où les deux ensembles de données sont égaux. Les unités de COV (X, Y) sont les unités de X fois les unités de Y.

— Nagaraj
source

6

La covariance peut être négative, elle n'est donc pas délimitée à 0. Je ne comprends pas non plus ce que vous entendez par votre dernière phrase, The units of COV(X,Y) are the units of X times the units of Y.souhaitez-vous élaborer?

— Andy W

Cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

$\operatorname{Cov}(X,Y) = \operatorname{E}{\big[(X - \operatorname{E}[X])(Y - \operatorname{E}[Y])\big]}$

2

@ naught101, les unités passent? Mon commentaire initial à Nagaraj était de demander plus de clarté, car des déclarations ambiguës telles que celle que je citerais n’aideraient personne. Alors, pourquoi ne pouvons-nous pas interpréter la covariance comme "les unités de x multipliées par les unités de y", parce que ce n'est pas ce que c'est. Une déclaration potentiellement plus correcte (pour la covariance de l'échantillon) serait la " moyenne des produits des déviations moyennes ". suite ...

— Andy W

2

Maintenant, les écarts moyens ne sont certainement pas les mêmes que les unités originales, et la statistique résultante pour la covariance ne dépend pas simplement de la moyenne et de la variance des attributs originaux. La covariance, en soi, ne vous dit rien sans connaître la variance des attributs originaux.

— Andy W