L'analyse factorielle exploratoire (EPT) est appropriée (psychométriquement et autrement) pour examiner dans quelle mesure on peut expliquer les corrélations entre plusieurs éléments en inférant l'influence commune d'un (des) facteur (s) non mesuré (c.-à-d. Latent). Si ce n'est pas votre intention spécifique, envisagez d'autres analyses, par exemple:
- Modélisation linéaire générale (p. Ex. Régression multiple, corrélation canonique ou OVA (M) AN (C))
- Analyse factorielle confirmatoire (CFA) ou analyse latente des traits / classes / profils
- Équation structurelle (SEM) / modélisation des moindres carrés partiels
La dimensionnalité est le premier problème que l'EPT peut résoudre. Vous pouvez examiner les valeurs propres de la matrice de covariance (comme en produisant un tracé d'éboulis via l'EFA) et effectuer une analyse parallèle pour résoudre la dimensionnalité de vos mesures. (Voir également quelques excellents conseils et suggestions alternatives de William Revelle .) Vous devez le faire soigneusement avant d'extraire un nombre limité de facteurs et de les faire pivoter dans l'EFA, ou avant d'adapter un modèle avec un nombre spécifique de facteurs latents à l'aide de CFA, SEM ou similaires. Si une analyse parallèle indique une multidimensionnalité, mais que votre (premier) facteur général l'emporte largement sur tous les autres (c'est-à-dire qu'il a de loin la valeur propre la plus élevée / explique la majorité de la variance dans vos mesures), envisagez une analyse bifactorielle (Gibbons et Hedeker, 1992;Reise, Moore et Haviland, 2010 ) .
De nombreux problèmes se posent dans l'EFA et la modélisation des facteurs latents des notes de l'échelle de Likert. Les échelles de Likert produisent des données ordinales (c.-à-d. Catégoriques, polytomiques, ordonnées) et non des données continues. L'analyse factorielle suppose généralement que toute entrée de données brutes est continue, et les gens effectuent souvent des analyses factorielles des matrices des corrélations produit-moment de Pearson, qui ne conviennent qu'aux données continues. Voici une citation de Reise et ses collègues (2010) :
Les techniques analytiques de facteur de confirmation ordinaires ne s'appliquent pas aux données dichotomiques ou polytomiques (Byrne, 2006) . Au lieu de cela, des procédures d'estimation spéciales sont requises (Wirth et Edwards, 2007) . Il existe essentiellement trois options pour travailler avec des données de réponse d'élément polytomique. La première consiste à calculer une matrice polychorique puis à appliquer des méthodes analytiques factorielles standard (voir Knol et Berger, 1991) . Une deuxième option consiste à utiliser l'analyse factorielle complète des éléments (Gibbons et Hedeker, 1992) . La troisième consiste à utiliser des procédures d'estimation des informations limitées conçues spécifiquement pour les données ordonnées telles que les moindres carrés pondérés avec ajustement de la moyenne et de la variance (MPLUS; Muthén et Muthén, 2009) .
Je recommanderais de combiner la première et la troisième approche (c.-à-d., Utiliser l'estimation des moindres carrés pondérés en diagonale sur une matrice de corrélation polychorique), basée sur la discussion de Wang et Cunningham (2005) des problèmes avec les alternatives typiques:
Lorsqu'une analyse factorielle confirmatoire a été menée avec des données ordinales non normales utilisant le maximum de vraisemblance et basées sur des corrélations de moment-produit de Pearson, les estimations des paramètres à la baisse produites dans cette étude étaient conformes aux résultats d'Olsson (1979) . En d'autres termes, l'ampleur de la non-normalité dans les variables ordinales observées est un déterminant majeur de la précision des estimations des paramètres.
Les résultats corroborent également les conclusions de Babakus et al. (1987) . Lorsqu'une estimation du maximum de vraisemblance est utilisée avec une matrice d'entrée de corrélation polychorique dans les analyses de facteurs de confirmation, les solutions ont tendance à entraîner des valeurs de chi carré inacceptables et donc significatives, ainsi que des statistiques d'ajustement médiocres.
La question demeure de savoir si les chercheurs devraient utiliser des estimateurs des moindres carrés pondérés ou des moindres carrés pondérés en diagonale pour estimer les modèles d'équations structurelles avec des données catégorielles non normales. Ni l'estimation des moindres carrés pondérés ni celle des moindres carrés pondérés en diagonale ne font d'hypothèses sur la nature de la distribution des variables et les deux méthodes produisent des résultats valides asymptotiquement. Néanmoins, comme l'estimation des moindres carrés pondérés est basée sur des moments de quatrième ordre, cette approche entraîne fréquemment des problèmes pratiques et est très exigeante en termes de calcul. Cela signifie que l'estimation des moindres carrés pondérés peut manquer de robustesse lorsqu'elle est utilisée pour évaluer des modèles de moyenne, c'est-à-dire avec 10 indicateurs, à une grande taille et des tailles d'échantillon petites à modérées.
Il n'est pas clair pour moi si la même préoccupation avec l'estimation des moindres carrés pondérés s'applique à l'estimation DWLS; quoi qu'il en soit, les auteurs recommandent cet estimateur. Au cas où vous n'en auriez pas déjà les moyens:
- R (R Core Team, 2012) est gratuit. Vous aurez besoin d'une ancienne version (par exemple,
2.15.2
) pour ces packages:
- Le
psych
package (Revelle, 2013) contient la polychoric
fonction.
- La
fa.parallel
fonction peut aider à identifier le nombre de facteurs à extraire.
- Le
lavaan
package (Rosseel, 2012) propose une estimation DWLS pour l'analyse des variables latentes.
- Le
semTools
paquet contient les efaUnrotate
, orthRotate
et les oblqRotate
fonctions.
- Le
mirt
package (Chalmers, 2012) offre des alternatives prometteuses en utilisant la théorie de la réponse aux items.
J'imagine que Mplus (Muthén & Muthén, 1998-2011) fonctionnerait aussi, mais la version de démonstration gratuite ne pourra pas accueillir plus de six mesures, et la version sous licence n'est pas bon marché. Cela peut valoir la peine si vous pouvez vous le permettre; les gens adorent Mplus , et le service client des Muthéns via leurs forums est incroyable!
Comme indiqué ci-dessus, l'estimation DWLS surmonte le problème des violations des hypothèses de normalité (à la fois univariées et multivariées), qui est un problème très courant et presque omniprésent dans les données de notation de l'échelle de Likert. Cependant, ce n'est pas nécessairement un problème pragmatique conséquent; la plupart des méthodes ne sont pas trop sensibles aux (petites biais) de petites violations (cf. Les tests de normalité sont-ils «essentiellement inutiles»? ). La réponse de @ chl à cette question soulève également des points et suggestions plus importants et excellents concernant les problèmes de style de réponse extrême; certainement un problème avec les notes d'échelle de Likert et d'autres données subjectives.
Références
· Babakus, E., Ferguson, JCE et Jöreskog, KG (1987). La sensibilité de l'analyse confirmatoire du facteur de probabilité maximale aux violations de l'échelle de mesure et des hypothèses de distribution. Journal of Marketing Research, 24 , 222-228.
· Byrne, BM (2006). Modélisation d'équations structurelles avec EQS. Mahwah, NJ: Lawrence Erlbaum.
· Chalmers, RP (2012). mirt: un package de théorie de réponse aux éléments multidimensionnels pour l'environnement R. Journal of Statistical Software, 48 (6), 1–29. Extrait de http://www.jstatsoft.org/v48/i06/ .
· Gibbons, RD et Hedeker, DR (1992). Analyse bi-factorielle des éléments d'information complète.
Psychometrika, 57 , 423–436.
· Knol, DL et Berger, MPF (1991). Comparaison empirique entre l'analyse factorielle et les modèles de réponse aux éléments multidimensionnels. Multivariate Behavioral Research, 26 , 457–477.
· Muthén, LK et Muthén, BO (1998-2011). Guide de l'utilisateur Mplus (6e éd.). Los Angeles, Californie: Muthén & Muthén.
· Muthén, LK et Muthén, BO (2009). Mplus (version 4.00). [Logiciel]. Los Angeles, CA: auteur. URL: http://www.statmodel.com .
· Olsson, U. (1979). Estimations du maximum de vraisemblance pour le coefficient de corrélation polychorique. Psychometrika, 44 , 443–460.
·R Core Team. (2012). R: Un langage et un environnement pour le calcul statistique. Fondation R pour le calcul statistique, Vienne, Autriche. ISBN 3-900051-07-0, URL: http://www.R-project.org/ .
· Reise, SP, Moore, TM et Haviland, MG (2010). Modèles bifactoriels et rotations: exploration de la mesure dans laquelle les données multidimensionnelles produisent des scores d'échelle univoques. Journal of Personality Assessment, 92 (6), 544–559. Extrait de http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2981404/ .
· Revelle, W. (2013). psych: Procédures pour la personnalité et la recherche psychologique. Northwestern University, Evanston, Illinois, États-Unis. Extrait de http://CRAN.R-project.org/package=psych . Version = 1.3.2.
· Rosseel, Y. (2012). lavaan: Un package R pour la modélisation des équations structurelles. Journal of Statistical Software, 48 (2), 1–36. Extrait de http://www.jstatsoft.org/v48/i02/ .
· Wang, WC et Cunningham, EG (2005). Comparaison d'autres méthodes d'estimation dans les analyses factorielles confirmatoires du questionnaire général sur la santé. Rapports psychologiques, 97 , 3–10.
· Wirth, RJ et Edwards, MC (2007). Analyse factorielle des éléments: approches actuelles et orientations futures. Psychological Methods, 12 , 58–79. Extrait de http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3162326/ .