Pourquoi n'est-il pas acceptable de faire une corrélation de Pearson sur les données de proportion?


10

Un module en ligne que j'étudie indique qu'il ne faut jamais utiliser la corrélation de Pearson avec les données de proportion. Pourquoi pas?

Ou, si c'est parfois OK ou toujours OK, pourquoi?


3
Qu'est-ce que cela dit et dans quel contexte? "Jamais" semble beaucoup trop fort à moins qu'ils ne parlent d'une situation très limitée. Il se peut que celui qui l'a écrit soit tout simplement faux, mais sans contexte, comment deviner?
Glen_b -Reinstate Monica

2
Le module en ligne est propriétaire et je ne peux pas le lier. Cependant, j'ai trouvé une vidéo qui dit la même chose: australianbioinformatics.net/the-pipeline/2013/3/19/… . Le module que j'ai vu et cette vidéo indiquent qu'il n'y a aucun contexte dans lequel des proportions corrélatives sont acceptables.
user1205901

4
"Jamais" est trop fort. Il y a des raisons d'être prudent dans l'interprétation des coefficients de corrélation impliquant des proportions, en particulier ceux basés sur de petits comptes. Mais la même analyse à l'appui de ces raisons montre également que lorsque les proportions sont basées sur de grands nombres et que les proportions sont "suffisamment éloignées" de ou 1 , alors les coefficients de corrélation ne sont pas problématiques. De plus, on peut toujours signaler un coefficient de corrélation pour tout ensemble de données appariées (où les deux composantes présentent des variations) en tant que statistique récapitulative (descriptive). 01
whuber

Réponses:


6

C'est pour un cas où plusieurs variables totalisent 1, dans chaque observation. Ma réponse sera au niveau de l'intuition; c'est intentionnel (et aussi, je ne suis pas un expert des données de composition).

Ayons iid (donc corrélés à zéro) des variables à valeur positive que nous résumons et recalculons ensuite en proportions de cette somme. Alors,

  • Dans le cas de deux variables V1 V2 , si V1 est censé varier librement, alors V2 n'a pas de place pour la liberté (puisque V1 + V2 = constant) et est entièrement fixe; plus V1 est grand, moins V2 est grand, moins V1 est grand, plus V2 est grand. Leur corrélation est mais et est toujours ainsi.1
  • Dans le cas de 3 variables V1 V2 V3 , si V1 est censé varier librement, V2 + V3 est fixe; ce qui veut dire que l' intérieur (V2 + V3) , chacune des deux variables sont encore partiellement libres: ils sont en moyenne heure fixe chaque plein fixé au total. Donc, si l'un des trois variables est considérée comme libre (comme nous avons pris V1), l' un des deux autres est prévu 1 / 2 fixe. Alors que la corrélation entre eux est de - 0,5 . Il s'agit de la corrélation attendue ; il peut varier d'un échantillon à l'autre.1/21/20.5
  • En cas de 4 variables V1 V2 V3 V4 par le même raisonnement que nous avons, si nous prenons l' un des quatre comme libre , alors une des restants devrait être fixe; ainsi, le attendu corrélation entre une paire quelconque de quatre - one sous forme libre l'autre comme 1 / trois fixée - est - 0,333 .1/31/30.333
  • À mesure que le nombre de variables (initialement iid) augmente, la corrélation par paire attendue passe de négative à , et sa variation d'un échantillon à l'autre devient plus importante.0

D'accord, mais je suppose que l'intérêt est dans les paires V1, V2, chaque V totalisant 1 (100%), mais aucune contrainte sur le V individuel, sauf que chacun est une fraction.
Nick Cox

each V summing to 1 ( 100%)Excusez-moi? Je ne t'ai pas compris. Je ne mets aucune contrainte sur le V individuel, n'étant qu'une fraction. Cependant, la contrainte initiale était que mon exemple suppose une corrélation nulle avant de transformer Vs en fractions.
ttnphns

Vouliez-vous dire que chaque V a des valeurs totalisant 1 ("verticalement")? Non, je voulais dire "horisontally", à travers les variables. Mais malheureusement, le PO n'a pas élucidé le point de leur question. Je l'ai donc pris tel que je l'ai pris.
ttnphns

Oui; c'est, je pense, ce que l'on entend habituellement ici, mais la question n'est pas particulièrement claire.
Nick Cox

1
@ttnphns J'ai vu une déclaration selon laquelle il ne fallait jamais faire une corrélation de Pearson avec deux variables mesurées en proportions. J'ai essayé de rendre cela plus clair en modifiant l'OP pour mettre en surbrillance le mot «jamais». La vidéo fait la même déclaration dans son titre ("Ne corrélez pas les proportions!"), Bien qu'ils n'en discutent que dans le contexte des données de composition. J'ai délibérément laissé le contexte indéfini parce que ma source a déclaré que les corrélations de Pearson ne devraient pas être utilisées sur les données de proportion dans aucun contexte. Cependant, il semble que la réponse à ma question soit: "Les proportions corrélatives sont bonnes, sauf dans certains contextes."
user1205901

10

Le lien vidéo de votre commentaire définit le contexte de celui des compositions, qui peuvent également être appelées mélanges. Dans ces cas, la somme de la proportion de chaque composant s'additionne à 1. Par exemple, l'air est composé à 78% d'azote, 21% d'oxygène et 1% autre (le total est de 100%). Étant donné que la quantité d'un composant est complètement déterminée par les autres, deux composants quelconques auront une relation multi-linéaire parfaite. Pour l'exemple de l'air, nous avons:

X1+X2+X3=1

Donc alors:

X1=1-X2-X3

X2=1-X1-X3

X3=1-X1-X2

Donc, si vous connaissez deux composants, le troisième est immédiatement connu.

En général, la contrainte sur les mélanges est

je=1qXje=1

Xje

Vous pouvez calculer une corrélation entre deux composants, mais ce n'est pas informatif , car ils sont toujours corrélés. Vous pouvez en savoir plus sur l'analyse de la composition dans Analyse des données mesurées en tant que composition proportionnelle .

Vous pouvez utiliser la corrélation lorsque les données de proportion proviennent de différents domaines. Dites que votre réponse est une fraction de pixels morts sur un écran LCD. Vous pouvez essayer de corréler cela à, disons, la fraction d'hélium utilisée dans une étape de traitement chimique de l'écran.


Je vois - j'avais pensé à tort que les compositions n'étaient qu'un exemple. Est-il donc juste de dire que les proportions en corrélation ne posent généralement pas de problème à moins que vous n'ayez une situation dans laquelle les compositions «forcent» une corrélation à exister?
user1205901

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipn'est pas clair. Pouvez-vous l'étendre?
ttnphns

Je ne comprends pas non plus cette réponse. Dans votre exemple à 3 variables, chacune est "déterminée" par DEUX autres, mais la corrélation de Pearson analyse seulement une variable par rapport à UNE autre. Ainsi, par exemple, si vous regardez l'azote par rapport à l'oxygène, vous pourriez avoir un ensemble de données (azote, oxygène) [(0,78, 0,21), (0,20, 0,41), (0,44, 0,44)], et vous pourriez faire un coefficient de corrélation valide calcul sur ces données (et ce n'est certainement pas colinéaire). Le coefficient de corrélation de Pearson ne sait pas ou ne se soucie pas des "autres" là-bas ...
Jason C

3
Comme une sorte de méta-commentaire, je ne m'attendrais pas à voir du matériel inaccessible cité comme autorité pour un point statistique, pas que vous proposiez de le faire. Donc, c'est simple à un niveau: il existe une littérature sur l'analyse des données de composition, qui est où chercher; Je ne suis pas un expert, donc je ne peux pas dire ce qui fait le plus autorité sur la corrélation, mais mon instinct est que l'avertissement est exagéré. L'utilisation descriptive de la corrélation peut être utile. C'est juste que les inférences sont compliquées par la contrainte sur les totaux.
Nick Cox

Je pense que la "fraction de pixels morts" serait bien si nous collections des mesures sur des écrans LCD qui ont le même nombre de pixels et la pression de gaz dans le processus est restée constante. Mais une fois que vous commencez à laisser les dénominateurs de ces proportions changer, qui peut dire quel est l'effet de l'hélium?
David Lovell

5

C'est une question profonde, et avec quelques subtilités qui doivent être énoncées. Je ferai de mon mieux, mais même si j'ai publié sur ce sujet ( Proportionnalité: une alternative valide à la corrélation pour les données relatives ), je suis toujours prêt à être surpris par de nouvelles perspectives sur l'analyse des données ne contenant que des informations relatives.

Comme l'ont souligné les contributeurs à ce fil, la corrélation est notoire (dans certains cercles) parce qu'elle n'a pas de sens lorsqu'elle est appliquée données de composition qui surviennent lorsqu'un ensemble de composants est contraint de s'additionner à une constante (comme nous le voyons avec les proportions, les pourcentages, parties par million, etc.).

Karl Pearson a inventé le terme corrélation fallacieuse avec cela à l'esprit. (Remarque: le site populaire de corrélation parasite de Tyler Vigen ne traite pas tant de la corrélation parasite que de l' erreur de « corrélation implique une causalité ».)

La section 1.7 du Guide concis d'analyse des données de composition d'Aitchison (2003) fournit une illustration classique des raisons pour lesquelles la corrélation est une mesure d'association inappropriée pour les données de composition (pour plus de commodité, citée dans ces informations supplémentaires .

Les données de composition surviennent non seulement lorsqu'un ensemble de composants non négatifs est sommé à une constante; les données sont dites compositionnelles lorsqu'elles ne contiennent que des informations relatives.

Je pense que le principal problème avec la corrélation des données qui ne portent que des informations relatives est dans l' interprétation du résultat. C'est un problème que nous pouvons illustrer avec une seule variable; disons «beignets produits par dollar de PIB» à travers les nations du monde. Si la valeur d'une nation est supérieure à une autre, est-ce parce que

  • leur production de beignets est plus élevée?
  • leur PIB est plus bas?

...qui peut dire?

Bien sûr, comme les gens le remarquent sur ce fil, on peut calculer les corrélations de ces sortes de variables comme une variable descriptive. Mais que signifient ces corrélations?


3

J'avais la même question. J'ai trouvé cette référence chez biorxiv utile:

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
«La proportionnalité: une alternative valable à la corrélation pour les données relatives»

Dans les informations à l'appui de cet article (Lovell, David et al.; Doi: dx.doi.org/10.1101/008417), les auteurs mentionnent que les corrélations entre les abondances relatives ne fournissent aucune information dans certains cas. Ils donnent un exemple d'abondances relatives de deux expressions d'ARNm. Sur la figure S2, les abondances relatives des deux différents ARNm sont parfaitement corrélées négativement, même si la corrélation de ces deux ARNm en valeurs absolues n'est pas négativement liée (points verts et points violets).

Cela pourrait peut-être vous aider.


2
Merci pour votre suggestion. Je n'ai pas été clair. En soutenant les informations de cet article (Lovell, David et al.; Doi: dx.doi.org/10.1101/008417 ), les auteurs mentionnent que les corrélations entre les abondances relatives ne fournissent aucune information dans certains cas. Ils donnent un exemple d'abondances relatives de deux expressions d'ARNm. Sur la figure S2, les abondances relatives des deux di ff érents ARNm sont parfaitement corrélées négativement, même si la corrélation de ces deux ARNm en valeur absolue n'est pas négativement (points verts et points violets).
poursuivre le

@shu vous pourriez peut-être dire pourquoi cet article vous a aidé avec un problème similaire et le résumer ..? Coller un lien n'est pas une réponse, alors veuillez en développer un peu plus. La raison en est aussi parce que les liens meurent et si vous voulez que votre réponse soit utile à quelqu'un à l'avenir, vous devriez la rendre cohérente. Bien sûr, fournir des références en plus de votre réponse est une bonne habitude.
Tim
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.