Les exigences de ce type de questions me paraissent un peu bizarres. Voici un concept / une formule mathématique , mais je souhaite en parler dans un contexte totalement dépourvu de symboles mathématiques. Je pense aussi qu'il faudrait préciser que l'algèbre nécessaire à la compréhension des formules devrait être enseignée à la plupart des gens avant l'enseignement supérieur (aucune compréhension de l'algèbre matricielle n'est nécessaire, une simple algèbre suffit).
Donc, au début, au lieu d’ignorer complètement la formule et d’en parler dans des analogies magiques et heuristiques, examinons simplement la formule et essayons d’expliquer les composants individuels par petites étapes. La différence en termes de covariance et de corrélation, lorsque l’on regarde les formules, devrait devenir claire. Alors que parler en termes d'analogies et d'heuristiques, je soupçonne, rendrait obsolètes deux concepts relativement simples et leurs différences dans de nombreuses situations.
Commençons donc par une formule pour l' échantillon de covariance (celles que je viens de prendre et que j'ai adoptées de wikipedia);
1n−1∑ni=1(xi−x¯)(yi−y¯)
Pour que tout le monde soit au courant, définissons explicitement tous les éléments et toutes les opérations de la formule.
- xi et sont chacun des mesures de deux attributs distincts de la même observationyi
- x¯ et sont les moyennes (ou moyennes) de chaque attributy¯
- Pour , disons simplement que cela signifie que nous divisons le résultat final par .1n−1n−1
- ∑ni=1 peut être un symbole étranger pour certains, il serait donc probablement utile d'expliquer cette opération. Il est tout simplement la somme de tous séparés observations, et représente le nombre total d'observations.in
À ce stade, je pourrais présenter un exemple simple, pour mettre un visage sur les éléments et les opérations pour ainsi dire. Ainsi, par exemple, créons simplement un tableau, où chaque ligne correspond à une observation (et où et sont étiquetés de manière appropriée). On pourrait probablement rendre ces exemples plus spécifiques (par exemple, représente l’âge et poids), mais cela n’a aucune importance pour notre discussion.xyxy
x y
---
2 5
4 8
9 3
5 6
0 8
À ce stade, si vous estimez que l'opération de somme de la formule n'a pas été entièrement comprise, vous pouvez l'introduire à nouveau dans un contexte beaucoup plus simple. Disons simplement que est la même chose que dans cet exemple;∑ni=1(xi)
x
--
2
4
9
5
+ 0
--
20
Maintenant, ce gâchis devrait être corrigé et nous pourrons entrer dans la deuxième partie de la formule, . Maintenant, en supposant que les gens sachent déjà ce que signifient les moyennes, et , et je dirais, étant hypocrites de mes propres commentaires plus tôt dans le post, on peut simplement parler de la moyenne en termes de heuristiques simples (par exemple le milieu de la distribution). On peut alors prendre ce processus, une opération à la fois. L'instruction(xi−x¯)(yi−y¯)x¯y¯(xi−x¯)examine uniquement les écarts / distance entre chaque observation et la moyenne de toutes les observations pour cet attribut particulier. Par conséquent, lorsqu'une observation est plus éloignée de la moyenne, cette opération aura une valeur plus élevée. On peut alors se référer à l'exemple de table donné et simplement démontrer l'opération sur le vecteur d'observations .x
x x_bar (x - x_bar)
2 4 -2
4 4 0
9 4 5
5 4 1
0 4 -4
L'opération est la même pour le vecteur , mais vous pouvez également présenter cette opération pour le renforcement.y
y y_bar (y - y_bar)
5 6 -1
8 6 2
3 6 -3
6 6 0
8 6 2
Maintenant, les termes et ne devraient pas être ambigus, et nous pouvons passer à l'opération suivante, en multipliant ces résultats ensemble, . Comme le souligne gung dans les commentaires, on parle souvent de produit croisé (peut-être un exemple utile à rappeler si on introduisait une algèbre matricielle de base pour les statistiques).(xi−x¯)(yi−y¯)(xi−x¯)⋅(yi−y¯)
Prenez note de ce qui se passe lors de la multiplication, si deux observations sont toutes deux très éloignées de la moyenne, l'observation résultante aura une valeur positive encore plus grande (la même chose est vraie si les deux observations se situent à une grande distance au-dessous de la moyenne, c'est-à-dire multiplier deux négatifs. est égal à positif). Notez également que si une observation est supérieure à la moyenne et l'autre, bien inférieure à la moyenne, la valeur résultante sera grande (en termes absolus) et négative (car une fois positive, une négative équivaut à un nombre négatif). Enfin, notez que lorsqu'une valeur est très proche de la moyenne pour l'une ou l'autre observation, la multiplication des deux valeurs donnera un petit nombre. Encore une fois, nous pouvons simplement présenter cette opération dans un tableau.
(x - x_bar) (y - y_bar) (x - x_bar)*(y - y_bar)
-2 -1 2
0 2 0
5 -3 -15
1 0 0
-4 2 -8
Maintenant, s’il y a des statisticiens dans la salle, ils devraient être bouillants d’anticipation à ce stade. Nous pouvons voir tous les éléments distincts de ce qu'est une covariance et de la façon dont elle est calculée entrent en jeu. Il ne reste plus qu’à résumer le résultat final dans le tableau précédent, diviser par et le tour est joué , la covariance ne doit plus être mystique (toutes ne définissant qu’un seul symbole grec).n−1
(x - x_bar)*(y - y_bar)
-----------------------
2
0
-15
0
+ -8
-----
-21
-21/(5-1) = -5.25
À ce stade, vous voudrez peut-être préciser d'où vient le chiffre 5, mais cela devrait être aussi simple que de renvoyer au tableau et de compter le nombre d'observations (laissez à nouveau la différence entre l'échantillon et la population à un autre moment).
Maintenant, la covariance en elle-même ne nous dit pas grand-chose (elle le peut, mais il est inutile à ce stade d’entrer dans des exemples intéressants sans recourir à des références magiques et non définies au public). Dans un bon scénario, vous n'aurez pas besoin de vraiment expliquer pourquoi nous devrions nous intéresser à la covariance. Dans d'autres circonstances, vous devrez simplement espérer que votre auditoire est captif et tiendra votre promesse. Mais, continuant à développer la différence entre la covariance et la corrélation, nous pouvons simplement renvoyer à la formule de corrélation. Pour éviter la phobie des symboles grecs, dites peut-être simplement que est le symbole commun utilisé pour représenter la corrélation.ρ
ρ=Cov(x,y)Var(x)Var(y)√
Encore une fois, pour répéter, le numérateur dans la formule précédente est simplement la covariance telle que nous venons de la définir, et le dénominateur est la racine carrée du produit de la variance de chaque série. Si vous devez définir la variance elle-même, vous pouvez simplement dire que la variance est la même chose que la covariance d'une série avec elle-même (c'est-à-dire ). Et tous les concepts que vous avez introduits avec la covariance s'appliquent (c.-à-d. Si une série a beaucoup de valeurs très éloignées de sa moyenne, elle aura une variance élevée). Notez peut-être ici qu’une série ne peut pas avoir une variance négative (ce qui devrait logiquement découler des calculs présentés précédemment).Cov(x,x)=Var(x)
Donc, les seuls nouveaux composants que nous avons introduits sont au dénominateur, . Nous divisons donc la covariance que nous venons de calculer par le produit des variances de chaque série. On pourrait expliquer pourquoi la division par donnera toujours une valeur comprise entre -1 et 1, mais je soupçonne que l’inégalité de Cauchy – Schwarz devrait être laissée de côté de l’ordre du jour. cette discussion. Encore une fois, je suis un hypocrite et je recourt à certains, croyez-moi sur parole , mais nous pouvons à présent indiquer toutes les raisons pour lesquelles nous utilisons le coefficient de corrélation. On peut ensuite relier ces leçons de mathématiques aux heuristiques données dans les autres déclarations, telles que la réponse de Peter Flom.Var(x)Var(y)Var(x)Var(y)−−−−−−−−−−−√à l'une des autres questions. Bien que cela ait été critiqué pour avoir introduit le concept en termes d'affirmations causales, cette leçon devrait également figurer à l'ordre du jour à un moment donné.
Je comprends que dans certaines circonstances, ce niveau de traitement ne serait pas approprié. Le sénat a besoin du résumé . Dans ce cas, vous pouvez vous référer aux heuristiques simples que les gens ont utilisées dans d’autres exemples, mais Rome n’a pas été construite en un jour. Et au sénat qui demande le résumé, si vous avez si peu de temps, vous devriez peut-être me croire sur parole, et vous dispenser des formalités des analogies et des points de balle.