Qu'est-ce que «l'effet de fer à cheval» et / ou l '«effet d'arc» dans l'analyse PCA / correspondance?


20

Il existe de nombreuses techniques en statistiques écologiques pour l'analyse exploratoire des données multidimensionnelles. Ces techniques sont appelées techniques d '«ordination». Beaucoup sont identiques ou étroitement liés aux techniques courantes ailleurs dans les statistiques. L'exemple prototypique serait peut-être l'analyse des composants principaux (ACP). Les écologistes pourraient utiliser l'ACP et des techniques connexes pour explorer les «gradients» (je ne sais pas exactement ce qu'est un gradient, mais j'en ai lu un peu à ce sujet.)

Sur cette page , le dernier élément sous Analyse des composants principaux (ACP) se lit comme suit:

  • L'ACP a un sérieux problème pour les données sur la végétation: l'effet de fer à cheval. Cela est dû à la curvilinéarité des distributions des espèces le long des gradients. Étant donné que les courbes de réponse des espèces sont généralement unimodales (c.-à-d. Très fortement curvilignes), les effets du fer à cheval sont courants.

Plus bas sur la page, sous Analyse des correspondances ou Moyenne réciproque (RA) , il fait référence à "l'effet d'arc":

  • RA a un problème: l'effet de voûte. Elle est également causée par la non-linéarité des distributions le long des gradients.
  • L'arche n'est pas aussi grave que l'effet de fer à cheval du PCA, car les extrémités du gradient ne sont pas alambiquées.

Quelqu'un peut-il expliquer cela? J'ai récemment vu ce phénomène dans des graphiques qui représentent à nouveau des données dans un espace dimensionnel inférieur (à savoir, l'analyse des correspondances et l'analyse factorielle).

  1. À quoi correspondrait un «gradient» de façon plus générale (c'est-à-dire dans un contexte non écologique)?
  2. Si cela se produit avec vos données, s'agit-il d'un "problème" ("problème grave")? Pour quoi?
  3. Comment interpréter la sortie là où un fer à cheval / une arche apparaît?
  4. Faut-il appliquer un remède? Quelle? Les transformations des données originales seraient-elles utiles? Et si les données sont des évaluations ordinales?

Les réponses peuvent exister dans d'autres pages de ce site (par exemple, pour PCA , CA et DCA ). J'ai essayé de les résoudre. Mais les discussions sont formulées dans une terminologie écologique et des exemples suffisamment peu connus pour qu'il soit plus difficile de comprendre la question.


1
(+1) J'ai trouvé une réponse raisonnablement claire à ordination.okstate.edu/PCA.htm . L'explication "curvilinéarité" dans votre citation est totalement fausse - ce qui la rend si confuse.
whuber

2
Voir également Diaconis et al. (2008), Horseshoes in multidimensional scaling and local kernel methods , Ann. Appl. Stat. , vol. 2, non. 3, 777-807.
Cardinal

J'ai essayé de répondre à vos questions, mais je ne sais pas dans quelle mesure j'ai réussi à le faire, car je suis écologiste et dégradé, c'est ainsi que je pense à ces choses.
Reinstate Monica - G. Simpson

@whuber: L'explication de "curvilinéarité" citée peut être déroutante et pas très claire, mais je ne pense pas que ce soit "totalement faux". Si les abondances de l'espèce en fonction de la position le long du véritable "gradient" (en utilisant un exemple de votre lien) étaient toutes linéaires (peut-être corrompues par du bruit), alors le nuage de points serait (approximativement) unidimensionnel et PCA le trouverait. Le nuage de points devient courbé / courbé car les fonctions ne sont pas linéaires. Un cas particulier de Gaussiens déplacés mène à un fer à cheval.
amibe dit Réintégrer Monica le

@Amoeba Néanmoins, l'effet de fer à cheval ne résulte pas de la curvilinéarité des gradients d'espèces: il résulte de non-linéarités dans les rapports de distribution . La citation, en attribuant l'effet aux formes des gradients eux-mêmes, n'identifie pas correctement la cause du phénomène.
whuber

Réponses:


19

Q1

Les écologistes parlent constamment de gradients. Il existe de nombreux types de dégradés, mais il peut être préférable de les considérer comme une combinaison des variables que vous souhaitez ou qui sont importantes pour la réponse. Ainsi, un gradient pourrait être le temps, l'espace, l'acidité du sol ou les nutriments, ou quelque chose de plus complexe, comme une combinaison linéaire d'une gamme de variables requises par la réponse d'une manière ou d'une autre.

Nous parlons de gradients parce que nous observons des espèces dans l'espace ou le temps et une multitude de choses varient avec cet espace ou ce temps.

Q2

Je suis arrivé à la conclusion que dans de nombreux cas, le fer à cheval dans PCA n'est pas un problème grave si vous comprenez comment il se produit et ne faites pas de bêtises comme prendre PC1 lorsque le "gradient" est en fait représenté par PC1 et PC2 (enfin, il est également divisé en PC plus élevés, mais j'espère qu'une représentation 2D est OK).

En Californie, je pense que je pense la même chose (maintenant que j'ai été forcé d'y réfléchir un peu). La solution peut former un arc lorsqu'il n'y a pas de 2ème dimension forte dans les données de telle sorte qu'une version pliée du premier axe, qui satisfait l'exigence d'orthogonalité des axes CA, explique plus "d'inertie" qu'une autre direction dans les données. Cela peut être plus grave, car il s'agit d'une structure composée où, avec l'ACP, l'arc n'est qu'un moyen de représenter les abondances d'espèces sur les sites le long d'un seul gradient dominant.

Je n'ai jamais bien compris pourquoi les gens s'inquiètent tant de la mauvaise commande avec PC1 avec un fer à cheval solide. Je dirais que vous ne devriez pas prendre uniquement PC1 dans de tels cas, et ensuite le problème disparaît; les paires de coordonnées sur PC1 et PC2 éliminent les inversions sur l'un de ces deux axes.

Q3

Si je voyais le fer à cheval dans un biplot PCA, j'interpréterais les données comme ayant un seul gradient dominant ou direction de variation.

Si je voyais l'arche, j'en conclurais probablement la même chose, mais je serais très prudent d'essayer d'expliquer l'axe CA 2 du tout.

Je n'appliquerais pas le DCA - il tord juste l'arc (dans les meilleures circonstances) de sorte que vous ne voyez pas les bizarreries dans les tracés 2D, mais dans de nombreux cas, il produit d'autres structures parasites telles que des diamants ou des formes de trompette au disposition des échantillons dans l'espace DCA. Par exemple:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

entrez la description de l'image ici

Nous voyons un éventail typique de points d'échantillonnage vers la gauche de l'intrigue.

Q4

m

Cela suggérerait de trouver une direction non linéaire dans l'espace à haute dimension des données. L'une de ces méthodes est la courbe principale de Hastie & Stuezel, mais d'autres méthodes non linéaires sont disponibles, ce qui pourrait suffire.

Par exemple, pour certaines données pathologiques

entrez la description de l'image ici

Nous voyons un fer à cheval solide. La courbe principale essaie de récupérer ce gradient sous-jacent ou arrangement / ordre des échantillons via une courbe lisse dans les m dimensions des données. La figure ci-dessous montre comment l'algorithme itératif converge vers quelque chose qui se rapproche du gradient sous-jacent. (Je pense qu'il s'éloigne des données en haut de l'intrigue afin d'être plus proche des données dans des dimensions plus élevées, et en partie à cause du critère d'auto-cohérence pour qu'une courbe soit déclarée courbe principale.)

entrez la description de l'image ici

J'ai plus de détails, y compris le code sur mon article de blog à partir duquel j'ai pris ces images. Mais le point principal ici est que les courbes principales récupèrent facilement l'ordre connu des échantillons, contrairement à PC1 ou PC2 seul.

Dans le cas de l'ACP, il est courant d'appliquer des transformations en écologie. Les transformations populaires sont celles que l'on peut penser renvoyer une certaine distance non euclidienne lorsque la distance euclidienne est calculée sur les données transformées. Par exemple, la distance Hellinger est

Helljenger(X1,X2)=j=1p[y1jy1+-y2jy2+]2

yjejjjeyje+je

Le fer à cheval est connu et étudié depuis longtemps en écologie; une partie de la littérature ancienne (plus un look plus moderne) est

Les principales références des courbes principales sont

Le premier étant une présentation très écologique.


Merci, Gavin. Considérez les notes ordinales 1: 5 à partir d'un ensemble de données avec des questions comme: "J'aime mon médecin" et "J'ai l'impression que mon médecin se soucie de moi en tant que personne". Ceux-ci ne sont pas distribués de manière significative à travers l'espace ou le temps. Quel serait le «gradient» ici?
gung - Rétablir Monica

Avec une table 5x5 et un N élevé, une façon de visualiser les données est w / CA. Les données sont ordinales, mais CA ne le reconnaît pas; afin que nous puissions vérifier si les lignes / colonnes adjacentes sont plus proches que celles plus éloignées. Les deux ensembles de points tombent le long d'une ligne claire dans l'ordre approprié, mais la ligne se courbe de telle sorte que les extrêmes sont plus proches l'un de l'autre que le milieu de l'espace 2D. Comment cela devrait-il être interprété?
gung - Rétablir Monica

CA trouve un ordre à la fois pour les lignes (échantillons) et les variables (cols) qui maximise la dispersion des «scores» de l'échantillon. Il trouve une variable latente (une combinaison linéaire des variables) qui maximise cette dispersion. Nous appelons cette variable latente un gradient.
Reinstate Monica - G. Simpson

Concernant la compression, voulez-vous dire plus proche les uns des autres sur l'axe CA 1 ou plus proche les uns des autres en termes de distance euclidienne dans l'échelle du biplot? Quoi qu'il en soit, c'est vraiment un problème dans la projection des données dans un espace de faible dimension. Le DCA essaie d'annuler cet effet en séparant les échantillons à la fin de l'axe DCA 1 détendu et en compressant les échantillons près de l'origine. Alors oui, c'est un problème, mais c'est dû à la rigidité de la méthode pour capturer le gradient sous-jacent de manière appropriée. Nous pouvons vivre avec ou utiliser une approche plus flexible (en écologie au moins).
Rétablir Monica - G. Simpson

1
Si vous regardiez cela dans plus de dimensions, le problème disparaîtrait. Je pense que ce n'est qu'une limite de la méthode; il fonctionne bien dans de nombreux cas mais échoue dans d'autres.
Rétablir Monica - G. Simpson
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.