Explication de base, mais en quelque sorte laborieuse, de l' analyse PCA vs Factor à l'aide de diagrammes de dispersion, en étapes logiques. (Je remercie @amoeba qui, dans son commentaire à la question, m'a encouragé à poster une réponse au lieu de créer des liens vers d'autres sites. Voici donc une réponse tardive.)
PCA en tant que résumé de variables (extraction de caractéristiques)
J'espère que vous avez déjà une compréhension de la PCA. Pour revivre maintenant.
Supposons que nous ayons des variables de corrélation et . Nous les centrons (soustrayons la moyenne) et faisons un diagramme de dispersion. Ensuite, nous effectuons la PCA sur ces données centrées. PCA est une forme de rotation des axes qui propose les axes P1 et P2 au lieu de V1 et V2. La propriété clé de la PCA est que P1 - appelé 1er composant principal - est orienté de manière à maximiser la variance des points de données le long de celle-ci. Les nouveaux axes sont de nouvelles variables dont les valeurs sont calculables tant que nous connaissons les coefficients de rotation (fourni par PCA) [ Eq.1 ]:V1V2a
P1=a11V1+a12V2
P2=a21V1+a22V2
Ces coefficients sont des cosinus de rotation (= cosinus de direction, directions principales) et comprennent ce qu'on appelle des vecteurs propres, tandis que les valeurs propres de la matrice de covariance sont les variances des composantes principales. En PCA, nous ignorons généralement les derniers composants faibles: nous résumons ainsi les données en quelques premiers composants extraits, avec une perte d'informations minime.
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
Avec nos données tracées, les valeurs de la composante P1 (scores) P1 = .73543*V1 + .67761*V2
et la composante P2, nous les rejetons. La variance de P1 est 1.75756
la 1ère valeur propre de la matrice de covariance, et P1 explique donc 86.5%
la variance totale qui est égale à (1.07652+.95534) = (1.75756+.27430)
.
PCA en tant que prédiction variable (fonctionnalité "latente")
Nous avons donc jeté P2 et nous nous attendons à ce que P1 seul puisse raisonnablement représenter les données. Cela revient à dire que peut raisonnablement bien "reconstruire" ou prédire et [ Eq.2 ]:P1 V1V2
V1=a11P1+E1
V2=a12P1+E2
où les coefficients sont ce que nous savons déjà et les erreurs (imprévisibilité). Il s'agit en fait d'un "modèle de régression" dans lequel les variables observées sont prédites (en retour) par la variable latente (si elle permet d'appeler une composante "latente") P1 extraite de ces mêmes variables. Regardez le graphique Fig.2 , ce n’est rien d’autre que Fig.1 , seulement détaillé:aE
L’axe P1 est indiqué en mosaïque avec ses valeurs (scores P1) en vert (ces valeurs sont les projections des points de données sur P1). Certains points de données arbitraires étaient étiquetés A, B, ... et leur départ (erreur) par rapport à P1 correspond à des connecteurs noirs en gras. Pour le point A, les détails sont indiqués: les coordonnées du score P1 (A vert) sur les axes V1 et V2 sont les valeurs de V1 et V2 reconstruites selon Eq.2 , et . Les erreurs de reconstruction et sont également affichées en beige. La longueur "erreur" du connecteur au carré est la somme des deux erreurs au carré, selon Pythagore.V1^=a11P1V2^=a12P1E1=V1−V1^E2=V2−V2^
Maintenant, ce qui est caractéristique de la PCA, c'est que si nous calculons E1 et E2 pour chaque point des données et traçons ces coordonnées - c'est-à-dire que nous établissons le diagramme de dispersion des erreurs uniquement, les "données d'erreur" du nuage coïncideront avec la composante P2 éliminée. Et c'est le cas: le nuage est tracé sur la même image que le nuage beige - et vous voyez qu'il forme réellement l'axe P2 (de la Fig.1 ) en mosaïque avec les scores de la composante P2.
Pas étonnant, vous pouvez dire. C’est tellement évident: dans la PCA , le ou les composant (s) junior (s) mis (s) au rebut est ce qui se décompose précisément dans les erreurs de prédiction E, dans le modèle qui explique (restaure) les variables originales V par la ou les caractéristiques latentes P1. Les erreurs E ensemble ne constituent que le ou les composants laissés. Voici où l' analyse factorielle commence à différer de la PCA.
L'idée d'une FA commune (trait latent)
Formellement, le modèle prédisant les variables manifestes en fonction de la ou des caractéristiques latentes extraites est le même dans FA que dans PCA; [ Eq.3 ]:
V1=a1F+E1
V2=a2F+E2
où F est le facteur commun latent extrait des données et remplaçant ce qui était P1 dans Eq.2 . La différence dans le modèle est que dans FA, contrairement à PCA, les variables d'erreur (E1 et E2) doivent être décorrélées les unes des autres .
Digression . Ici, je veux interrompre l’histoire et me faire une idée de ce que sont des coefficients . Dans l’ACP, nous avons dit que c’étaient des entrées de vecteurs propres trouvés dans l’ACP (par décomposition de valeurs propres ou singulières). Tandis que P1 latent avait sa variance native. Si nous choisissons de normaliser la variance de P1 en unité, nous devrons compenser en augmentant de manière appropriée les coefficients , afin de prendre en charge l'équation. Cette mise à l'échelle d' s s'appelle des chargements ; elles présentent un intérêt numérique car ce sont les covariances (ou corrélations) entre les variables latentes et observables et peuvent donc aider à interpréter la caractéristique latente. Dans les deux modèles - Eq.2 et Eq.3aaa- vous êtes libre de décider, sans nuire à l'équation, de quelle manière les termes sont mis à l'échelle. Si F (ou P1) est considéré comme une unité mise à l'échelle, est en cours de chargement; tandis que si F (P1) doit avoir son échelle native (variance), alors devrait être réduit en conséquence - dans PCA, les entrées de vecteurs propres seront égales, mais dans FA, elles seront différentes et ne seront généralement pas appelées "vecteurs propres". Dans la plupart des textes sur l' analyse des facteurs, F sont supposées variance unitaires , de façon sont - ils des charges . Dans la littérature ACP, P1 est généralement d' avoir sa variance discuté réelle et ainsi sont des vecteurs propres.aaaa
OK, revenons au fil. E1 et E2 ne sont pas corrélés dans l'analyse factorielle; ainsi, ils devraient former un nuage d’erreurs soit rond, soit elliptique mais non orienté en diagonale. Alors qu’en PCA, leur nuage formait une ligne droite qui coïncidait avec un P2 en diagonale. Les deux idées sont démontrées sur la photo:
Notez que les erreurs sont des nuages ronds (non allongés en diagonale) dans FA. Le facteur (latent) dans l’AF est orienté quelque peu différemment, c’est-à-dire qu’il n’est pas juste que le premier composant principal soit le "latent" dans PCA. Sur la photo, la courbe des facteurs est étrangement conique - on comprendra pourquoi au final.
Quel est le sens de cette différence entre PCA et FA? Les variables corrélées sont visibles dans la forme elliptique en diagonale du nuage de données. P1 écrémé la variance maximale, l'ellipse est donc co-dirigée vers P1. En conséquence, P1 a expliqué par elle-même la corrélation; mais cela n'expliquait pas suffisamment la corrélation existante ; il a semblé expliquer la variation des points de données et non la corrélation. En réalité, il a sur-pris en compte la corrélation, ce qui a eu pour résultat l’apparition d’un nuage d’erreurs en diagonale et corrélée qui compense le surdénombrement. P1 à lui seul ne peut expliquer la force de la corrélation / covariation de manière exhaustive. Facteur F peutfais le tout seul; et la condition quand il devient capable de le faire est exactement où les erreurs peuvent être forcées pour être décorrélées. Étant donné que le nuage d'erreur est arrondi, aucune corrélation - positive ou négative - n'est restée après l'extraction du facteur; c'est donc le facteur qui a tout écrémé.
En tant que réduction de dimensionnalité, PCA explique la variance mais explique les corrélations de manière imprécise. FA explique les corrélations mais ne peut pas expliquer (par les facteurs communs) autant de variations de données que l’ACP. Le (s) facteur (s) dans FA tiennent compte de la partie de la variabilité qui est la partie corrélationnelle nette, appelée communalité ; et par conséquent, les facteurs peuvent être interprétés comme des forces / caractéristiques / traits réels, mais non observables, qui cachent "dans" ou "derrière" les variables d'entrée pour les amener à les corréler. Parce qu'ils expliquent bien la corrélation mathématiquement. Les principales composantes (quelques premières premières) ne l'expliquent pas aussi mathématiquement et peuvent donc être qualifiées de "trait latent" (ou une telle caractéristique) seulement à un moment ou à un autre et provisoirement .
La multiplication des chargements est ce qui explique (restaure) la corrélation, ou la corrélation sous la forme de covariance - si l'analyse était basée sur la matrice de covariance (comme dans notre exemple) plutôt que sur la matrice de corrélation. L’analyse factorielle que j’ai faite avec les données a donné a_1=.87352, a_2=.84528
, donc le produit a_1*a_2 = .73837
est presque égal à la covariance .73915
. Par contre, les charges de PCA ont été surestimées de a1_1=.97497, a1_2=.89832
manière considérable.a1_1*a1_2 = .87584
.73915
Après avoir expliqué la principale distinction théorique entre PCA et FA, revenons à nos données pour illustrer l’idée.
FA: solution approximative (scores factoriels)
Ci-dessous, le diagramme de dispersion montrant les résultats de l'analyse que nous appellerons provisoirement "analyse factorielle sous-optimale", Fig.3 .
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
Voir les départs de la Fig.2 de la PCA. Le nuage beige des erreurs n’est pas rond, il est elliptique en diagonale - mais il est évidemment beaucoup plus gros que la mince ligne diagonale qui s’est produite dans PCA. Notez également que les connecteurs d'erreur (indiqués pour certains points) ne sont plus parallèles (dans PCA, ils étaient par définition parallèles à P2). De plus, si vous regardez, par exemple, les points "F" et "E" qui sont symétriquement symétriques sur l' axe F du facteur , vous découvrirez que, de manière inattendue, leurs scores de facteurs correspondants sont des valeurs très différentes. En d'autres termes, les scores factoriels ne sont pas simplement des scores en composantes principales transformés linéairement: le facteur F se trouve à sa manière différent de celui de P1. Et leurs axes ne coïncident pas complètement s'ils sont montrés ensemble sur le même tracé. Fig.4 :
En dehors de cela, ils sont un peu différemment orientés, F (en mosaïque avec les scores) est plus court, c’est-à-dire qu’il représente une variance plus petite que les comptes P1. Comme indiqué précédemment, les facteurs ne rendent compte que de la variabilité qui est responsable de la corrélation de V1, V2, c'est-à-dire la partie de la variance totale suffisante pour amener les variables de la covariance primitive 0
à la covariance factuelle .73915
.
FA: solution optimale (vrai facteur)
Une solution factorielle optimale consiste à utiliser des nuages elliptiques arrondis ou non diagonaux: E1 et E2 sont totalement non corrélés . L'analyse factorielle renvoie en réalité une solution optimale. Je ne l'ai pas montré sur un simple diagramme de dispersion comme ceux ci-dessus. Pourquoi ai-je? - Ce serait la chose la plus intéressante, après tout.
La raison en est qu’il serait impossible de montrer suffisamment sur un diagramme de dispersion, même en adoptant un tracé en 3D. C'est théoriquement un point assez intéressant. Afin de rendre E1 et E2 complètement décorrélés, il apparaît que ces trois variables, F, E1, E2, ne doivent pas se trouver dans l'espace (plan) défini par V1, V2; et les trois doivent être non corrélés les uns avec les autres . Je pense qu’il est possible de dessiner un tel diagramme de dispersion en 5D (et peut-être avec un gadget - en 4D), mais nous vivons dans un monde en 3D, hélas. Le facteur F doit être non corrélé à E1 et à E2 (alors que les deux le sont également), car F est censé être la seule (complète) source de corrélation dans les données observées. L’analyse factorielle divise la variance totale de lap
variables d'entrée en deux parties non corrélées (non superposées): la partie communalité ( m
-dimensionnelle, où m
règle des facteurs communs) et la partie unique ( p
-dimensionnelle, où les erreurs sont, également appelées facteurs uniques, non corrélées mutuellement).
Donc, pardon pour ne pas montrer le facteur réel de nos données sur un diagramme de dispersion ici. Il pourrait être visualisé de manière tout à fait adéquate via des vecteurs dans "l'espace sujet" comme cela est fait ici sans montrer les points de données.
Ci-dessus, dans la section "L'idée de FA commun (caractéristique latente)", j'ai affiché le facteur (axe F) comme un coin afin d'avertir que l'axe du facteur réel ne se situe pas sur le plan V1 V2. Cela signifie que, contrairement à la composante principale P1, le facteur F en tant qu'axe n'est pas une rotation de l'axe V1 ou V2 dans leur espace, et F en tant que variable n'est pas une combinaison linéaire des variables V1 et V2. Par conséquent, F est modélisé (extrait des variables V1 v2) comme une variable externe indépendante, et non une dérivation de celles-ci. Les équations telles que Eq.1 à partir desquelles PCA commence, ne sont pas applicables pour calculer le facteur réel (optimal) en analyse factorielle, alors que les équations formellement isomorphes Eq.2 et Eq.3sont valables pour les deux analyses. En d’autres termes, dans l’ACP, les variables génèrent des composants et les composants prennent en compte les variables prédites; en FA facteur (s) générer / prédire les variables, et non arrière - modèle de facteur commun suppose théoriquement si , même si techniquement les facteurs sont extraites des variables observées.
Non seulement le facteur vrai n'est pas une fonction des variables manifestes, les valeurs du facteur vrai ne sont pas définies de manière unique . En d'autres termes, ils sont simplement inconnus. Tout cela est dû au fait que nous sommes dans l’espace analytique excessif 5D et non dans notre espace 2D personnel des données. Seules de bonnes approximations (un certain nombre de méthodes existent ) de vraies valeurs factorielles, appelées scores factoriels , existent pour nous. Les scores factoriels ne se situent dans le plan V1 V2, comme les scores principaux composants sont, ils sont calculés comme les fonctions linéaires de V1, V2, aussi, et étaient - ilsque j'ai tracé dans la section "FA: solution approximative (scores factoriels)". Les scores des composantes principales sont des valeurs de composantes vraies; les scores factoriels ne sont qu'une approximation raisonnable des valeurs de facteurs réels indéterminées.
FA: résumé de la procédure
Pour rassembler dans un petit caillot ce que les deux sections précédentes ont dit, et ajouter les derniers coups. En fait, FA peut ( si vous le faites bien, et voyez également les hypothèses de données ) trouver la solution du facteur réel (par "vrai", je veux dire ici optimal pour l'échantillon de données). Cependant, il existe différentes méthodes d’extraction (elles diffèrent par certaines contraintes secondaires qu’elles mettent). La véritable solution de facteur est à chargements seule. Ainsi, les charges sont des facteurs optimaux et vrais. Les scores factoriels - si vous en avez besoin - sont calculables à partir de ces chargements de différentes manières et renvoient des approximations aux valeurs factorielles.a
Ainsi, la "solution factorielle" affichée par moi dans la section "FA: solution approximative (scores factoriels)" reposait en réalité sur des chargements optimaux, c'est-à-dire sur de vrais facteurs. Mais les scores n'étaient pas optimaux, par destin. Les scores sont calculés comme une fonction linéaire des variables observées, comme les scores des composants, afin de pouvoir les comparer tous les deux sur un diagramme de dispersion.
Méfiez-vous lorsque vous tracez sur les mêmes chargements de facteurs biplot avec des scores de facteurs dans "l'espace des facteurs", soyez conscient que les chargements appartiennent à de vrais facteurs alors que les scores se rapportent à des facteurs de substitution (voir mes commentaires à cette réponse dans ce fil).
La rotation des facteurs (charges) aide à interpréter les caractéristiques latentes. La rotation des chargements peut également être effectuée dans PCA si vous utilisez PCA comme si l'analyse factorielle (c'est-à-dire, voir PCA en tant que prédiction de variable). La PCA tend à converger dans les résultats avec FA à mesure que le nombre de variables augmente (voir le fil extrêmement riche sur les similitudes et les différences conceptuelles pratiques et conceptuelles entre les deux méthodes). Voir ma liste des différences entre PCA et FA à la fin de cette réponse . Les calculs étape par étape de PCA vs FA sur le jeu de données iris se trouvent ici . Il existe un nombre considérable de bons liens vers les réponses des autres participants sur le sujet en dehors de ce fil; Je suis désolé, je n'ai utilisé que quelques-uns d'entre eux dans la réponse actuelle.
Voir aussi la liste ci- dessous des différences entre PCA et FA ici .