Un module en ligne que j'étudie indique qu'il ne faut jamais utiliser la corrélation de Pearson avec les données de proportion. Pourquoi pas?
Ou, si c'est parfois OK ou toujours OK, pourquoi?
Un module en ligne que j'étudie indique qu'il ne faut jamais utiliser la corrélation de Pearson avec les données de proportion. Pourquoi pas?
Ou, si c'est parfois OK ou toujours OK, pourquoi?
Réponses:
C'est pour un cas où plusieurs variables totalisent 1, dans chaque observation. Ma réponse sera au niveau de l'intuition; c'est intentionnel (et aussi, je ne suis pas un expert des données de composition).
Ayons iid (donc corrélés à zéro) des variables à valeur positive que nous résumons et recalculons ensuite en proportions de cette somme. Alors,
each V summing to 1 ( 100%)
Excusez-moi? Je ne t'ai pas compris. Je ne mets aucune contrainte sur le V individuel, n'étant qu'une fraction. Cependant, la contrainte initiale était que mon exemple suppose une corrélation nulle avant de transformer Vs en fractions.
Le lien vidéo de votre commentaire définit le contexte de celui des compositions, qui peuvent également être appelées mélanges. Dans ces cas, la somme de la proportion de chaque composant s'additionne à 1. Par exemple, l'air est composé à 78% d'azote, 21% d'oxygène et 1% autre (le total est de 100%). Étant donné que la quantité d'un composant est complètement déterminée par les autres, deux composants quelconques auront une relation multi-linéaire parfaite. Pour l'exemple de l'air, nous avons:
Donc alors:
Donc, si vous connaissez deux composants, le troisième est immédiatement connu.
En général, la contrainte sur les mélanges est
Vous pouvez calculer une corrélation entre deux composants, mais ce n'est pas informatif , car ils sont toujours corrélés. Vous pouvez en savoir plus sur l'analyse de la composition dans Analyse des données mesurées en tant que composition proportionnelle .
Vous pouvez utiliser la corrélation lorsque les données de proportion proviennent de différents domaines. Dites que votre réponse est une fraction de pixels morts sur un écran LCD. Vous pouvez essayer de corréler cela à, disons, la fraction d'hélium utilisée dans une étape de traitement chimique de l'écran.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
n'est pas clair. Pouvez-vous l'étendre?
C'est une question profonde, et avec quelques subtilités qui doivent être énoncées. Je ferai de mon mieux, mais même si j'ai publié sur ce sujet ( Proportionnalité: une alternative valide à la corrélation pour les données relatives ), je suis toujours prêt à être surpris par de nouvelles perspectives sur l'analyse des données ne contenant que des informations relatives.
Comme l'ont souligné les contributeurs à ce fil, la corrélation est notoire (dans certains cercles) parce qu'elle n'a pas de sens lorsqu'elle est appliquée données de composition qui surviennent lorsqu'un ensemble de composants est contraint de s'additionner à une constante (comme nous le voyons avec les proportions, les pourcentages, parties par million, etc.).
Karl Pearson a inventé le terme corrélation fallacieuse avec cela à l'esprit. (Remarque: le site populaire de corrélation parasite de Tyler Vigen ne traite pas tant de la corrélation parasite que de l' erreur de « corrélation implique une causalité ».)
La section 1.7 du Guide concis d'analyse des données de composition d'Aitchison (2003) fournit une illustration classique des raisons pour lesquelles la corrélation est une mesure d'association inappropriée pour les données de composition (pour plus de commodité, citée dans ces informations supplémentaires .
Les données de composition surviennent non seulement lorsqu'un ensemble de composants non négatifs est sommé à une constante; les données sont dites compositionnelles lorsqu'elles ne contiennent que des informations relatives.
Je pense que le principal problème avec la corrélation des données qui ne portent que des informations relatives est dans l' interprétation du résultat. C'est un problème que nous pouvons illustrer avec une seule variable; disons «beignets produits par dollar de PIB» à travers les nations du monde. Si la valeur d'une nation est supérieure à une autre, est-ce parce que
...qui peut dire?
Bien sûr, comme les gens le remarquent sur ce fil, on peut calculer les corrélations de ces sortes de variables comme une variable descriptive. Mais que signifient ces corrélations?
J'avais la même question. J'ai trouvé cette référence chez biorxiv utile:
Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
«La proportionnalité: une alternative valable à la corrélation pour les données relatives»
Dans les informations à l'appui de cet article (Lovell, David et al.; Doi: dx.doi.org/10.1101/008417), les auteurs mentionnent que les corrélations entre les abondances relatives ne fournissent aucune information dans certains cas. Ils donnent un exemple d'abondances relatives de deux expressions d'ARNm. Sur la figure S2, les abondances relatives des deux différents ARNm sont parfaitement corrélées négativement, même si la corrélation de ces deux ARNm en valeurs absolues n'est pas négativement liée (points verts et points violets).
Cela pourrait peut-être vous aider.