Il est en effet quelque chose. Pour le savoir, nous devons examiner ce que nous savons de la corrélation elle-même.
La matrice de corrélation d'une variable aléatoire à valeur vectorielle est la matrice de variance-covariance, ou simplement "variance", de la version standardisée de . Autrement dit, chaque est remplacé par sa version recadrée et redimensionnée.X X iX=(X1,X2,…,Xp)XXi
La covariance de et est l'attente du produit de leurs versions centrées. Autrement dit, en écrivant et , nous avonsX j X ′ i = X i - E [ X i ] X ′ j = X j - E [ X j ]XiXjX′i=Xi−E[Xi]X′j=Xj−E[Xj]
Cov(Xi,Xj)=E[X′iX′j].
La variance de , que j'écrirai , n'est pas un nombre unique. Il s'agit du tableau de valeurs Var ( X ) Var ( X ) i j = Cov ( X i , X j ) .XVar(X)
Var(X)ij=Cov(Xi,Xj).
La façon de penser la covariance de la généralisation envisagée est de la considérer comme un tenseur . Cela signifie que c'est une collection entière de quantités , indexées par et allant de à , dont les valeurs changent de manière particulièrement simple et prévisible lorsque subit une transformation linéaire. Plus précisément, soit une autre variable aléatoire de valeur vectorielle définie par i j 1 p X Y = ( Y 1 , Y 2 , … , Y q )vijij1pXY=(Y1,Y2,…,Yq)
Yi=∑j=1pajiXj.
Les constantes ( et sont des index - n'est pas une puissance) forment un tableau , et . La linéarité de l'attente implique ijjq×pA=(aajiijjq×pj=1,…,pi=1,…,qA=(aji)j=1,…,pi=1,…,q
Var(Y)ij=∑akialjVar(X)kl.
En notation matricielle,
Var(Y)=AVar(X)A′.
Tous les composants de sont en fait des variances univariées, en raison de l' identité de polarisationVar(X)
4Cov(Xi,Xj)=Var(Xi+Xj)−Var(Xi−Xj).
Cela nous dit que si vous comprenez les variances des variables aléatoires univariées, vous comprenez déjà les covariances des variables bivariées: ce sont "juste" des combinaisons linéaires de variances.
L'expression dans la question est parfaitement analogue: les variables ont été normalisées comme dans . Nous pouvons comprendre ce que cela représente en considérant ce que cela signifie pour toute variable, standardisée ou non. Nous remplacerions chaque par sa version centrée, comme dans , et formerions des quantités ayant trois indices, ( 1 ) X i ( 2 )Xi(1)Xi(2)
μ3(X)ijk=E[X′iX′jX′k].
Ce sont les moments centraux (multivariés) du degré3 . Comme dans , ils forment un tenseur: quand , alorsY = A X(4)Y=AX
μ3(Y)ijk=∑l,m,naliamjankμ3(X)lmn.
Les indices dans cette gamme de somme triple sur toutes les combinaisons d'entiers de à .p1p
L'analogue de l'identité de polarisation est
24μ3(X)ijk=μ3(Xi+Xj+Xk)−μ3(Xi−Xj+Xk)−μ3(Xi+Xj−Xk)+μ3(Xi−Xj−Xk).
Sur le côté droit, fait référence au troisième moment central (univarié): la valeur attendue du cube de la variable centrée. Lorsque les variables sont normalisées, ce moment est généralement appelé asymétrie . En conséquence, nous pouvons penser que est l' asymétrie multivariée de . Il s'agit d'un tenseur de rang trois (c'est-à-dire à trois indices) dont les valeurs sont des combinaisons linéaires des asymétries de différentes sommes et des différences des . Si nous cherchions des interprétations, nous penserions alors à ces composants comme mesurant en dimensions, quelle que soit l'asymétrie mesurée en une dimension. Dans de nombreux cas,μ 3 ( X ) X X i pμ3μ3(X)XXip
Les premiers moments mesurent l' emplacement d'une distribution;
Les seconds moments (la matrice variance-covariance) mesurent sa propagation ;
Les seconds moments normalisés (les corrélations) indiquent comment la dispersion varie dans l'espace dimensionnel; etp
Les troisième et quatrième moments normalisés sont pris pour mesurer la forme d'une distribution par rapport à sa propagation.
Pour élaborer sur ce que pourrait signifier une "forme" multidimensionnelle, nous avons observé que nous pouvons comprendre l'ACP comme un mécanisme pour réduire toute distribution multivariée à une version standard située à l'origine et des écarts égaux dans toutes les directions. Une fois l'ACP effectuée, fournirait les indicateurs les plus simples de la forme multidimensionnelle de la distribution. Ces idées s'appliquent aussi bien aux données qu'aux variables aléatoires, car les données peuvent toujours être analysées en fonction de leur distribution empirique.μ3
Référence
Alan Stuart et J. Keith Ord, Théorie avancée de la statistique de Kendall, cinquième édition, volume 1: théorie de la distribution ; Chapitre 3, Moments et cumulants . Oxford University Press (1987).
Annexe: Preuve de l'identité de polarisation
Soit des variables algébriques. Il existe façons d'ajouter et de soustraire toutes les d'entre elles. Lorsque nous augmentons chacune de ces sommes et différences à la puissance , choisissons un signe approprié pour chacun de ces résultats et les additionnons, nous obtiendrons un multiple de .2 n n n e x 1 x 2 ⋯ x nx1,…,xn2nnnthx1x2⋯xn
Plus formellement, soit l'ensemble de tous les -tuples de , de sorte que tout élément soit un vecteur dont les coefficients sont tous . La réclamation est n ± 1 s ∈ S s = ( s 1 , s 2 , … , s n ) ± 1S={1,−1}nn±1s∈Ss=(s1,s2,…,sn)±1
2nn!x1x2⋯xn=∑s∈Ss1s2⋯sn(s1x1+s2x2+⋯+snxn)n.(1)
En effet, le théorème multinomial déclare que le coefficient du monôme (où les sont des entiers non négatifs sommant à ) dans l'expansion de tout terme sur la main droite côté estxi11xi22⋯xinnijn
(ni1,i2,…,in)si11si22⋯sinn.
Dans la somme , les coefficients impliquant apparaissent par paires où une de chaque paire implique le cas , avec un coefficient proportionnel à fois , égal à , et l'autre de chaque paire implique le cas , avec un coefficient proportionnel à fois , égal à . Ils annulent la somme chaque fois que est impair. Le même argument s'applique à . Par conséquent,(1)xi11s1=1s1si111s1=−1−1(−1)i1(−1)i1+1i1+1i2,…,inles seuls monômes qui apparaissent avec des coefficients non nuls doivent avoir des puissances impaires de tous les . xi Le seul monôme de ce type est . Il apparaît avec le coefficienten tout termes de la somme. Par conséquent, son coefficient est de, QED .x1x2⋯xn(n1,1,…,1)=n!2n2nn!
Nous devons prendre seulement la moitié de chaque paire associée à : c'est-à-dire que nous pouvons restreindre le côté droit de aux termes avec et diviser par deux le coefficient du côté gauche à. Cela donne précisément les deux versions de l'identité de polarisation citées dans cette réponse pour les cas et : et .x1(1)s1=12n−1n!n=2n=322−12!=423−13!=24
Bien sûr, l'Identité de Polarisation pour les variables algébriques l'implique immédiatement pour les variables aléatoires: soit chaque une variable aléatoire . Prenez les attentes des deux côtés. Le résultat suit par la linéarité de l'attente.xiXi