Analogie de la corrélation de Pearson pour 3 variables

17

Je voudrais savoir si une "corrélation" de trois variables est quelque chose, et si quoi, qu'est-ce que ce serait?

Coefficient de corrélation du moment du produit de Pearson

\frac{E {(X - μ_{X}) (Y - μ_{Y})}}{\sqrt{V a r (X) V a r (Y)}}

$\frac{\mathrm{E}\{(X-\mu_X)(Y-\mu_Y)\}}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}}$

Maintenant, la question pour 3 variables: Est

\frac{E {(X - μ_{X}) (Y - μ_{Y}) (Z - μ_{Z})}}{\sqrt{V a r (X) V a r (Y) V a r (Z)}}

$\frac{\mathrm{E}\{(X-\mu_X)(Y-\mu_Y)(Z-\mu_Z)\}} {\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)\mathrm{Var}(Z)}}$

n'importe quoi?

Dans R, cela semble être quelque chose d'interprétable:

> a <- rnorm(100); b <- rnorm(100); c <- rnorm(100)
> mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c))
[1] -0.3476942

Nous examinons normalement la corrélation entre 2 variables étant donné la valeur d'une troisième variable fixe. Quelqu'un pourrait-il clarifier?

correlation pearson-r

— PascalVKooten
source

2

1) Dans votre formule de Pearson bivariée, si "E" (moyenne dans votre code) implique une division par n alors st. les écarts doivent également être basés sur n (pas n-1). 2) Soit les trois variables être la même variable. Dans ce cas, nous nous attendons à ce que la corrélation soit de 1 (comme dans le cas bivarié), mais hélas ...

— ttnphns

Pour une distribution normale trivariée, elle est nulle, quelles que soient les corrélations.

— Ray Koopman

1

Je pense vraiment que le titre gagnerait à être changé en "Analogie de la corrélation de Pearson pour 3 variables" ou similaire - cela rendrait les liens ici un peu plus informatifs

— Silverfish

1

@Silverfish, je suis d'accord! J'ai mis à jour le titre, merci.

— PascalVKooten

12

Il est en effet quelque chose. Pour le savoir, nous devons examiner ce que nous savons de la corrélation elle-même.

La matrice de corrélation d'une variable aléatoire à valeur vectorielle est la matrice de variance-covariance, ou simplement "variance", de la version standardisée de . Autrement dit, chaque est remplacé par sa version recadrée et redimensionnée. $\mathbf{X}=(X_1,X_2,\ldots,X_p)$ $\mathbf{X}$ $X_i$
La covariance de et est l'attente du produit de leurs versions centrées. Autrement dit, en écrivant et , nous avons $X_i$ $X_j$ $X^\prime_i = X_i - E[X_i]$ $X^\prime_j = X_j - E[X_j]$

$Cov (X_{i}, X_{j}) = E [X_{i}^{'} X_{j}^{'}] .$ $\operatorname{Cov}(X_i,X_j) = E[X^\prime_i X^\prime_j].$
La variance de , que j'écrirai , n'est pas un nombre unique. Il s'agit du tableau de valeurs $\mathbf{X}$ $\operatorname{Var}(\mathbf{X})$
$Var (X)_{i j} = Cov (X_{i}, X_{j}) .$ $\operatorname{Var}(\mathbf{X})_{ij}=\operatorname{Cov}(X_i,X_j).$
La façon de penser la covariance de la généralisation envisagée est de la considérer comme un tenseur . Cela signifie que c'est une collection entière de quantités , indexées par et allant de à , dont les valeurs changent de manière particulièrement simple et prévisible lorsque subit une transformation linéaire. Plus précisément, soit une autre variable aléatoire de valeur vectorielle définie par $v_{ij}$ $i$ $j$ $1$ $p$ $\mathbf{X}$ $\mathbf{Y}=(Y_1,Y_2,\ldots,Y_q)$

$Y_{i} = \sum_{j = 1}^{p} a_{i}^{j} X_{j} .$ $Y_i = \sum_{j=1}^p a_i^{\,j}X_j.$
Les constantes ( et sont des index - n'est pas une puissance) forment un tableau , et . La linéarité de l'attente implique $a_i^{\,j}$ $i$ $j$ $j$ $q\times p$ $\mathbb{A} = (a_i^{\,j})$ $j=1,\ldots, p$ $i=1,\ldots, q$

$Var (Y)_{i j} = \sum a_{i}^{k} a_{j}^{l} Var (X)_{k l} .$ $\operatorname{Var}(\mathbf Y)_{ij} = \sum a_i^{\,k}a_j^{\,l}\operatorname{Var}(\mathbf X)_{kl} .$
En notation matricielle,

$Var (Y) = A Var (X) A^{'} .$ $\operatorname{Var}(\mathbf Y) = \mathbb{A}\operatorname{Var}(\mathbf X) \mathbb{A}^\prime .$
Tous les composants de sont en fait des variances univariées, en raison de l' identité de polarisation $\operatorname{Var}(\mathbf{X})$

$4 Cov (X_{i}, X_{j}) = Var (X_{i} + X_{j}) - Var (X_{i} - X_{j}) .$ $4\operatorname{Cov}(X_i,X_j) = \operatorname{Var}(X_i+X_j) - \operatorname{Var}(X_i-X_j).$
Cela nous dit que si vous comprenez les variances des variables aléatoires univariées, vous comprenez déjà les covariances des variables bivariées: ce sont "juste" des combinaisons linéaires de variances.

L'expression dans la question est parfaitement analogue: les variables ont été normalisées comme dans . Nous pouvons comprendre ce que cela représente en considérant ce que cela signifie pour toute variable, standardisée ou non. Nous remplacerions chaque par sa version centrée, comme dans , et formerions des quantités ayant trois indices, $X_i$ $(1)$ $X_i$ $(2)$

μ_{3} (X)_{i j k} = E [X_{i}^{'} X_{j}^{'} X_{k}^{'}] .

$\mu_3(\mathbf{X})_{ijk} = E[X_i^\prime X_j^\prime X_k^\prime].$

Ce sont les moments centraux (multivariés) du degré $3$ . Comme dans , ils forment un tenseur: quand , alors $(4)$ $\mathbf{Y} = \mathbb{A}\mathbf{X}$

μ_{3} (Y)_{i j k} = \sum_{l, m, n} a_{i}^{l} a_{j}^{m} a_{k}^{n} μ_{3} (X)_{l m n} .

$\mu_3(\mathbf{Y})_{ijk} = \sum_{l,m,n} a_i^{\,l}a_j^{\,m}a_k^{\,n} \mu_3(\mathbf{X})_{lmn}.$

Les indices dans cette gamme de somme triple sur toutes les combinaisons d'entiers de à . $1$ $p$

L'analogue de l'identité de polarisation est

\begin{aligned} 24 μ_{3} (X)_{i j k} = \\ μ_{3} (X_{i} + X_{j} + X_{k}) - μ_{3} (X_{i} - X_{j} + X_{k}) - μ_{3} (X_{i} + X_{j} - X_{k}) + μ_{3} (X_{i} - X_{j} - X_{k}) . \end{aligned}

$\eqalign{&24\mu_3(\mathbf{X})_{ijk} = \\ &\mu_3(X_i+X_j+X_k) - \mu_3(X_i-X_j+X_k) - \mu_3(X_i+X_j-X_k) + \mu_3(X_i-X_j-X_k).}$

Sur le côté droit, fait référence au troisième moment central (univarié): la valeur attendue du cube de la variable centrée. Lorsque les variables sont normalisées, ce moment est généralement appelé asymétrie . En conséquence, nous pouvons penser que est l' asymétrie multivariée de . Il s'agit d'un tenseur de rang trois (c'est-à-dire à trois indices) dont les valeurs sont des combinaisons linéaires des asymétries de différentes sommes et des différences des . Si nous cherchions des interprétations, nous penserions alors à ces composants comme mesurant en dimensions, quelle que soit l'asymétrie mesurée en une dimension. Dans de nombreux cas, $\mu_3$ $\mu_3(\mathbf{X})$ $\mathbf{X}$ $X_i$ $p$

Les premiers moments mesurent l' emplacement d'une distribution;
Les seconds moments (la matrice variance-covariance) mesurent sa propagation ;
Les seconds moments normalisés (les corrélations) indiquent comment la dispersion varie dans l'espace dimensionnel; et $p$
Les troisième et quatrième moments normalisés sont pris pour mesurer la forme d'une distribution par rapport à sa propagation.

Pour élaborer sur ce que pourrait signifier une "forme" multidimensionnelle, nous avons observé que nous pouvons comprendre l'ACP comme un mécanisme pour réduire toute distribution multivariée à une version standard située à l'origine et des écarts égaux dans toutes les directions. Une fois l'ACP effectuée, fournirait les indicateurs les plus simples de la forme multidimensionnelle de la distribution. Ces idées s'appliquent aussi bien aux données qu'aux variables aléatoires, car les données peuvent toujours être analysées en fonction de leur distribution empirique. $\mu_3$

Référence

Alan Stuart et J. Keith Ord, Théorie avancée de la statistique de Kendall, cinquième édition, volume 1: théorie de la distribution ; Chapitre 3, Moments et cumulants . Oxford University Press (1987).

Annexe: Preuve de l'identité de polarisation

Soit des variables algébriques. Il existe façons d'ajouter et de soustraire toutes les d'entre elles. Lorsque nous augmentons chacune de ces sommes et différences à la puissance , choisissons un signe approprié pour chacun de ces résultats et les additionnons, nous obtiendrons un multiple de . $x_1,\ldots, x_n$ $2^n$ $n$ $n^\text{th}$ $x_1x_2\cdots x_n$

Plus formellement, soit l'ensemble de tous les -tuples de , de sorte que tout élément soit un vecteur dont les coefficients sont tous . La réclamation est $S=\{1,-1\}^n$ $n$ $\pm 1$ $s\in S$ $s=(s_1,s_2,\ldots,s_n)$ $\pm 1$

\begin{matrix} (1) & 2^{n} n! x_{1} x_{2} \dots x_{n} = \sum_{s \in S} s_{1} s_{2} \dots s_{n} (s_{1} x_{1} + s_{2} x_{2} + \dots + s_{n} x_{n})^{n} . \end{matrix}

$2^n n!\, x_1x_2\cdots x_n = \sum_{s\in S} \color{red}{s_1s_2\cdots s_n}(s_1x_1+s_2x_2+\cdots+s_nx_n)^n.\tag{1}$

En effet, le théorème multinomial déclare que le coefficient du monôme (où les sont des entiers non négatifs sommant à ) dans l'expansion de tout terme sur la main droite côté est $x_1^{i_1}x_2^{i_2}\cdots x_n^{i_n}$ $i_j$ $n$

(\binom{n}{i_{1}, i_{2}, \dots, i_{n}}) s_{1}^{i_{1}} s_{2}^{i_{2}} \dots s_{n}^{i_{n}} .

$\binom{n}{i_1,i_2,\ldots,i_n}s_1^{i_1}s_2^{i_2}\cdots s_n^{i_n}.$

Dans la somme , les coefficients impliquant apparaissent par paires où une de chaque paire implique le cas , avec un coefficient proportionnel à fois , égal à , et l'autre de chaque paire implique le cas , avec un coefficient proportionnel à fois , égal à . Ils annulent la somme chaque fois que est impair. Le même argument s'applique à . Par conséquent, $(1)$ $x_1^{i_1}$ $s_1=1$ $\color{red}{s_1}$ $s_1^{i_1}$ $1$ $s_1=-1$ $\color{red}{-1}$ $(-1)^{i_1}$ $(-1)^{i_1+1}$ $i_1+1$ $i_2, \ldots, i_n$ les seuls monômes qui apparaissent avec des coefficients non nuls doivent avoir des puissances impaires de tous les . $x_i$ Le seul monôme de ce type est . Il apparaît avec le coefficienten tout termes de la somme. Par conséquent, son coefficient est de, QED . $x_1x_2\cdots x_n$ $\binom{n}{1,1,\ldots,1}=n!$ $2^n$ $2^nn!$

Nous devons prendre seulement la moitié de chaque paire associée à : c'est-à-dire que nous pouvons restreindre le côté droit de aux termes avec et diviser par deux le coefficient du côté gauche à. Cela donne précisément les deux versions de l'identité de polarisation citées dans cette réponse pour les cas et : et . $x_1$ $(1)$ $s_1=1$ $2^{n-1}n!$ $n=2$ $n=3$ $2^{2-1}2! = 4$ $2^{3-1}3!=24$

Bien sûr, l'Identité de Polarisation pour les variables algébriques l'implique immédiatement pour les variables aléatoires: soit chaque une variable aléatoire . Prenez les attentes des deux côtés. Le résultat suit par la linéarité de l'attente. $x_i$ $X_i$

— whuber
source

Bravo pour expliquer jusqu'ici! L'asymétrie multivariée est logique. Pourriez-vous peut-être ajouter un exemple qui montrerait l'importance de cette asymétrie multivariée? Soit comme un problème dans les modèles statistiques, soit peut-être plus intéressant, quel cas réel serait sujet à une asymétrie multivariée :)?

— PascalVKooten

3

Hmmm. Si nous courons ...

a <- rnorm(100);
b <- rnorm(100);
c <- rnorm(100)
mean((a-mean(a))*(b-mean(b))*(c-mean(c)))/
  (sd(a) * sd(b) * sd(c))

cela semble centré sur 0 (je n'ai pas fait de vraie simulation), mais comme @ttnphns le fait allusion, exécuter ceci (toutes les variables sont les mêmes)

a <- rnorm(100)
mean((a-mean(a))*(a-mean(a))*(a-mean(a)))/
  (sd(a) * sd(a) * sd(a))

semble également se concentrer sur 0, ce qui me fait certainement me demander à quoi cela pourrait servir.

— Peter Flom - Réintégrer Monica
source

2

Le non-sens vient apparemment du fait que la sdvariance est fonction de la quadrature, tout comme la covariance. Mais avec 3 variables, le cubage se produit au numérateur tandis que le dénominateur reste basé sur des termes initialement au carré

— ttnphns

2

Est-ce là la racine (jeu de mots voulu)? Le numérateur et le dénominateur ont les mêmes dimensions et unités, qui s'annulent, de sorte que seuls ne rendent pas la mesure mal formée.

— Nick Cox

3

@ Nick C'est vrai. Il s'agit simplement d'un des troisièmes moments centraux multivariés. Il s'agit d'une composante d'un tenseur de rang trois donnant l'ensemble complet des troisièmes moments (qui est étroitement lié à la composante d'ordre 3 de la fonction de génération de cumulant multivariée). Conjointement avec les autres composants, il pourrait être d'une certaine utilité pour décrire les asymétries ("asymétrie" de dimension supérieure) dans la distribution. Ce n'est cependant pas ce que quelqu'un pourrait appeler une «corrélation»: presque par définition, une corrélation est une propriété de second ordre de la variable standardisée.

— whuber

1

Si vous devez calculer la "corrélation" entre trois variables ou plus, vous ne pouvez pas utiliser Pearson, car dans ce cas, ce sera différent pour un ordre de variables différent, regardez ici . Si vous vous intéressez à la dépendance linéaire ou à la façon dont elles sont ajustées par la ligne 3D, vous pouvez utiliser PCA, obtenir la variance expliquée pour le premier PC, permuter vos données et trouver la probabilité que cette valeur soit à des raisons aléatoires. J'ai discuté de quelque chose de similaire ici (voir les détails techniques ci-dessous).

Code Matlab

% Simulate our experimental data
x=normrnd(0,1,100,1);
y=2*x.*normrnd(1,0.1,100,1);
z=(-3*x+1.5*y).*normrnd(1,2,100,1);
% perform pca
[loadings, scores,variance]=pca([x,y,z]);
% Observed Explained Variance for first principal component
OEV1=variance(1)/sum(variance)
% perform permutations
permOEV1=[];
for iPermutation=1:1000
    permX=datasample(x,numel(x),'replace',false);
    permY=datasample(y,numel(y),'replace',false);
    permZ=datasample(z,numel(z),'replace',false);
    [loadings, scores,variance]=pca([permX,permY,permZ]);
    permOEV1(end+1)=variance(1)/sum(variance);
end

% Calculate p-value
p_value=sum(permOEV1>=OEV1)/(numel(permOEV1)+1)

— zlon
source