Contrairement à l'analyse des composants principaux, les solutions aux modèles d'analyse factorielle ne sont pas nécessairement imbriquées. Autrement dit, les charges (par exemple) pour le premier facteur ne seront pas nécessairement identiques lorsque seul le premier facteur est extrait par rapport aux deux premiers facteurs.
Dans cet esprit, considérons un cas où vous avez un ensemble de variables manifestes qui sont fortement corrélées et (par la connaissance théorique de leur contenu) devraient être motivées par un seul facteur. Imaginez que les analyses factorielles exploratoires (selon la mesure que vous préférez: analyse parallèle, éboulis, valeurs propres> 1, etc.) suggèrent fortement qu'il existe facteurs: un grand facteur primaire et un petit facteur secondaire. Vous souhaitez utiliser les variables manifestes et la solution factorielle pour estimer (c.-à-d. Obtenir des scores factoriels) les valeurs des participants pour le premier facteur. Dans ce scénario, serait-il préférable de:
- Mettre en place un modèle de facteur pour extraire seulement facteur et obtenir des scores de facteur (etc.), ou
- adapter un modèle factoriel pour extraire les deux facteurs, obtenir des scores factoriels pour les facteurs, mais jeter / ignorer les scores pour le deuxième facteur?
Quelle que soit la meilleure pratique, pourquoi? Y a-t-il des recherches sur cette question?
Is is always better to extract more factors when they exist?
n'est pas très clair. Il vaut toujours mieux en extraire autant qu'il en existe. Le sous-ajustement ou le sur-ajustement déforment tous les deux la "vraie" structure latente en raison de la nature multivariée et non imbriquée de l'analyse que vous avez mentionnée. Le problème est que nous ne savons pas exactement combien de facteurs il y a dans nos données. Et si ces données en ont autant que la population.