Interprétation des biplots dans l'analyse des composants principaux


30

Je suis tombé sur ce joli tutoriel: Un manuel d'analyses statistiques utilisant R. Chapitre 13. Analyse en composantes principales: L'heptathlon olympique sur la façon de faire l'APC en langage R. Je ne comprends pas l'interprétation de la figure 13.3:

biplot

Je trace donc le premier vecteur propre contre le deuxième vecteur propre. Qu'est-ce que ça veut dire? Supposons que la valeur propre correspondant au premier vecteur propre explique 60% de la variation de l'ensemble de données et que le second vecteur valeur propre explique le 20% de la variation. Que signifie les représenter les uns contre les autres?


Réponses:


22

ppXn×p

Xuupvariables, ou une combinaison de celles-ci. Dans votre cas, la figure 13.3 dans HSAUR montre que Joyner-Kersee (Jy-K) a un score élevé (négatif) sur le 1er axe, suggérant qu'il a globalement assez bien performé sur tous les événements. Le même raisonnement s'applique à l'interprétation du deuxième axe. Je regarde très brièvement la figure, je ne vais donc pas entrer dans les détails et mon interprétation est certainement superficielle. Je suppose que vous trouverez de plus amples informations dans le manuel HSAUR. Ici, il convient de noter que les variables et les individus sont représentés sur le même diagramme (cela s'appelle un biplotr(X1,X2)=cos2(X1,X2)

Je pense, cependant, que vous feriez mieux de commencer à lire un livre d'introduction sur l'analyse multivariée pour avoir un aperçu approfondi des méthodes basées sur l'ACP. Par exemple, BS Everitt a écrit un excellent manuel sur ce sujet, An R and S-Plus ® Companion to Multivariate Analysis , et vous pouvez consulter le site Web d'accompagnement pour l'illustration. Il existe d'autres excellents packages R pour l'analyse de données multivariées appliquées, comme ade4 et FactoMineR .


r(X1,X2)=cos(X1,X2)cos2(X1,X2)

21

L'intrigue montre:

  • le score de chaque cas (c.-à-d. athlète) sur les deux premières composantes principales
  • le chargement de chaque variable (c'est-à-dire chaque événement sportif) sur les deux premières composantes principales.

Les axes gauche et inférieur montrent les scores des composantes principales [normalisés]; les axes supérieur et droit montrent les chargements.

En général, il suppose que deux composantes expliquent une quantité suffisante de la variance pour fournir une représentation visuelle significative de la structure des cas et des variables.

Vous pouvez regarder pour voir quels événements sont proches les uns des autres dans l'espace. Lorsque cela s'applique, cela peut suggérer que les athlètes qui sont bons à un événement sont également susceptibles d'être bons aux autres événements proximaux. Vous pouvez également utiliser l'intrigue pour voir quels événements sont éloignés. Par exemple, le javelot semble être une valeur aberrante et un événement majeur définissant le deuxième composant principal. Peut-être qu'un autre type d'athlète est bon en javelot que bon dans la plupart des autres épreuves.

Bien sûr, on pourrait en dire plus sur l'interprétation de fond.



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.