L'ACP est avant tout une technique de réduction des données dont l'objectif est d'obtenir une projection des données sur un espace de dimension inférieure. Deux objectifs équivalents sont soit de maximiser itérativement la variance, soit de minimiser l'erreur de reconstruction. Ceci est en fait élaboré dans certains détails dans les réponses à cette question précédente .
En revanche, l'analyse factorielle est principalement un modèle génératif d'un vecteur de données à dimensions disant que
où est le vecteur à dimensions de facteurs latents, est avec et est un vecteur d'erreurs non corrélées. La matrice est la matrice des chargements factoriels . Cela donne une paramétrisation spéciale de la matrice de covariance comme
Le problème avec ce modèle est qu'il est surparamétrisé. Le même modèle est obtenu si est remplacé parX X = A S + ϵ S q A p × k k < p ϵ A Σ = A A T + D A A R k × k R A ΣpX
X=AS+ϵ
SqAp×kk<pϵAΣ=AAT+D
AAR pour toute matrice orthogonale , ce qui signifie que les facteurs eux-mêmes ne sont pas uniques. Différentes suggestions existent pour résoudre ce problème, mais il n'y a
pas une seule solution qui vous donne des facteurs avec le type d'interprétation que vous demandez. Un choix populaire est la rotation
varimax . Cependant, le critère utilisé ne détermine que la rotation. L'espace de colonne couvert par ne change pas, et comme cela fait partie de la paramétrisation, il est déterminé par la méthode utilisée pour estimer - par maximum de vraisemblance dans un modèle gaussien, par exemple.
k×kRAΣ
Par conséquent, pour répondre à la question, les facteurs choisis ne sont pas donnés automatiquement à l'aide d'un modèle d'analyse factorielle, il n'y a donc pas d'interprétation unique des premiers facteurs. Vous devez spécifier la méthode utilisée pour estimer (l'espace de colonne de) et la méthode utilisée pour choisir la rotation. Si (toutes les erreurs ont la même variance), la solution MLE pour l'espace de colonne de est l'espace couvert par les principaux vecteurs de composants principaux, qui peut être trouvé par une décomposition en valeurs singulières. Il est bien sûr possible de choisir de ne pas faire tourner et de déclarer ces principaux vecteurs composants comme facteurs. A D = σ 2 I A qkAD=σ2IAq
Edit: Pour souligner comment je le vois, le modèle d'analyse factorielle est un modèle de la matrice de covariance en tant que matrice de rang plus une matrice diagonale. Ainsi, l'objectif du modèle est d'expliquer au mieux la covariance avec une telle structure sur la matrice de covariance. L'interprétation est qu'une telle structure sur la matrice de covariance est compatible avec un facteur de dimension non observé . Malheureusement, les facteurs ne peuvent pas être récupérés de manière unique, et la façon dont ils peuvent être choisis dans l'ensemble des facteurs possibles n'a aucun rapport avec l'explication des données. Comme c'est le cas avec l'ACP, on peut standardiser les données à l'avance et ainsi adapter un modèle qui tente d'expliquer la matrice de corrélation comme un rang plus une matrice diagonale. k kkkk