Les chargements (à ne pas confondre avec les vecteurs propres) ont les propriétés suivantes:
- Leurs sommes de carrés dans chaque composante sont les valeurs propres (variances des composantes).
- Les charges sont des coefficients en combinaison linéaire prédisant une variable par les composants (normalisés).
Vous avez extrait 2 premiers PC sur 4. Matrice des chargements et des valeurs propres:A
A (loadings)
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Eigenvalues:
1.0000000000 1.0000000000
Dans ce cas, les deux valeurs propres sont égales. C'est un cas rare dans le monde réel, il dit que PC1 et PC2 sont de "force" explicative égale.
Supposons que vous ayez également calculé les valeurs des composants, la Nx2
matrice et que vous les standardisiez z (moyenne = 0, dév. Standard = 1) dans chaque colonne. Ensuite (au point 2 dit ci - dessus), X = C A ' . Mais, comme vous n'avez laissé que 2 PC sur 4 (il vous manque 2 colonnes supplémentaires en A ), les valeurs de données restauréesCX^=CA′AX^ ne sont pas exactes, - il y a une erreur (si 3, 4 valeurs propres ne sont pas nuls).
D'ACCORD. Quels sont les coefficients pour prédire les composants par variables ? Clairement, si était plein , ce serait B = ( A - 1 ) ′ . Avec une matrice de chargement non carrée, nous pouvons les calculer comme B = A ⋅ d i a g ( e i g e n v a l u e s ) - 1 = (A4x4
B=(A−1)′ , oùB=A⋅diag(eigenvalues)−1=(A+)′diag(eigenvalues)
est la matrice diagonale carrée avec les valeurs propres sur sa diagonale, et en +
exposant dénote pseudoinverse. Dans ton cas:
diag(eigenvalues):
1 0
0 1
B (coefficients to predict components by original variables):
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Donc, si est une matrice de variables centrées d'origine (ou des variables standardisées, si vous faites une ACP basée sur des corrélations plutôt que sur des covariances), alors C = X B ; C sont les scores normalisés des composantes principales. Dans votre exemple, qui est:XNx4
C=XBC
PC1 = 0,5 * X1 + 0,5 * X2 + 0,5 * X3 + 0,5 * X4 ~ (X1 + X2 + X3 + X4) / 4
"la première composante est proportionnelle au score moyen"
PC2 = 0,5 * X1 + 0,5 * X2 - 0,5 * X3 - 0,5 * X4 = (0,5 * X1 + 0,5 * X2) - (0,5 * X3 + 0,5 * X4)
"le deuxième composant mesure la différence entre la première paire de scores et la deuxième paire de scores"
B=A
B=A⋅diag(eigenvalues)−1B=R−1ARétant la matrice de covariance (ou corrélation) des variables. Cette dernière formule provient directement de la théorie de la régression linéaire. Les deux formules sont équivalentes dans le contexte PCA uniquement. En analyse factorielle, ils ne le sont pas et pour calculer les scores factoriels (qui sont toujours approximatifs en FA), il faut s'appuyer sur la deuxième formule.
Mes réponses connexes:
Plus de détails sur les chargements par rapport aux vecteurs propres .
Comment les scores des composantes principales et les scores des facteurs sont calculés .