Pourquoi le ρ de Pearson n'est-il qu'une mesure exhaustive de l'association si la distribution conjointe est normale à plusieurs variables?


Réponses:


15

Il serait peut-être préférable de comprendre la «mesure d'association» dans une distribution multivariée comme consistant en toutes les propriétés qui restent les mêmes lorsque les valeurs sont arbitrairement redimensionnées et recentrées. Cela peut changer les moyennes et les variances en toute valeur théoriquement admissible (les variances doivent être positives; les moyennes peuvent être n'importe quoi).

Les coefficients de corrélation (" de Pearson ") déterminent alors complètement une distribution normale multivariée. Une façon de voir cela est d'examiner toute définition de formule, comme les formules pour la fonction de densité ou la fonction caractéristique. Ils impliquent uniquement des moyennes, des variances et des covariances - mais les covariances et les corrélations peuvent être déduites les unes des autres lorsque vous connaissez les variances.ρ

La famille normale multivariée n'est pas la seule famille de distributions qui bénéficie de cette propriété. Par exemple, toute distribution multivariée t (pour les degrés de liberté supérieurs à ) a une matrice de corrélation bien définie et est également entièrement déterminée par ses deux premiers moments.2


Ai-je raison de dire que, selon la définition que vous appliquez ici, la covariance ne serait pas une mesure d'association? Puisqu'il tendrait à augmenter à mesure que les variances augmentent.
user1205901

2
C'est exact. Bien que la covariance soit évidemment liée à une mesure d'association, elle n'en est pas une car elle est également affectée par d'autres facteurs.
whuber

19

Les variables peuvent être associées d'une manière dont la corrélation de Pearson est complètement aveugle.

ρxyz

entrez la description de l'image ici

Voici un autre exemple de variables associées mais non corrélées:

entrez la description de l'image ici

(Le point sous-jacent concerne les distributions, même si je l'illustre avec des données ici.)

Même lorsque les variables sont corrélées, la corrélation de Pearson en général ne vous dit pas comment - vous pouvez obtenir des formes d'association très différentes qui ont la même corrélation de Pearson, (mais lorsque les variables sont normales à plusieurs variables, dès que je vous le dis la corrélation, vous pouvez dire exactement comment les variables standardisées sont liées).

ρ

(Une façon courante d'aborder l'association multivariée est via les copules. Il existe de nombreuses questions sur le site qui se rapportent aux copules; vous pouvez trouver certaines d'entre elles utiles)


Existe-t-il des données réelles avec de telles distributions?

@Que existe-t-il des données réelles tirées de distributions normales? J'en doute, donc (puisque mes marginaux étaient tous normaux dans les diagrammes) cela ferait la réponse "non" immédiatement. Le but des exemples était de montrer clairement pourquoi l'association entre les variables aléatoires n'est pas aussi simple qu'on le suppose parfois (à quelle fréquence les gens calculent-ils une corrélation de Pearson pour mesurer l'association? Assez souvent), et aussi de souligner que le fait d'avoir des marges normales et d'être multivarié normal sont différents. Des exemples très réels où la corrélation de Pearson ne saisit pas ce qui se passe se produisent certainement.
Glen_b -Reinstate Monica

Ne parlons pas des distributions un instant. Lorsque nous calculons des corrélations à partir d'un nuage de points, nous supposons une corrélation idéale sous-jacente "de forme géométrique" (linéaire, hyperbolique, logarithmique, sinus, etc.) à partir de laquelle les points dans le nuage s'écartent en raison d'une "erreur". Maintenant, toutes les formes idéales que j'ai vues sont abstraites de données réelles où elles sont continues (sans interruption) et toujours croissantes le long d'au moins un axe (c'est-à-dire, non, par exemple, circulaires). Ma connaissance des données est limitée, donc je me demandais s'il y avait en fait des données du monde réel dont la corrélation est non continue ou circulaire.

Par exemple, il peut y avoir des données qui, si je trace, ressembleront à deux nuages ​​de points. Si je calcule aveuglément des corrélations sur ces données, je pourrais en trouver une, alors que (ou du moins on me l'a dit) l'intrigue indique clairement qu'il me manque une variable de confusion inconnue qui, si je la tenais compte, résoudrait la fausse relation dans mon Les données. Si mon professeur regardait vos exemples en forme de "x" ou de "y", il me dirait que j'ai deux sous-ensembles de données distincts mélangés.
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.