Existe-t-il une analyse factorielle ou une ACP pour les données ordinales ou binaires?


28

J'ai terminé l'analyse en composantes principales (PCA), l'analyse factorielle exploratoire (EFA) et l'analyse factorielle confirmatoire (CFA), en traitant les données avec une échelle de likert (réponses à 5 niveaux: aucune, un peu, certaines, ..) en continu variable. Ensuite, en utilisant Lavaan, j'ai répété le CFA définissant les variables comme catégoriques.

J'aimerais savoir quels types d'analyses seraient appropriés et seraient équivalents à l'ACP et à l'EPT lorsque les données sont de nature ordinale . Et quand binaire .

J'apprécierais également les suggestions de packages ou de logiciels spécifiques qui peuvent être facilement mis en œuvre pour de telles analyses.

Réponses:


38

L'ACP (linéaire) traditionnelle et l'analyse factorielle nécessitent des données au niveau de l'échelle (intervalle ou rapport). Souvent, les données de notation de type likert sont supposées être au niveau de l'échelle, car ces données sont plus faciles à analyser. Et la décision est parfois justifiée statistiquement, surtout lorsque le nombre de catégories ordonnées est supérieur à 5 ou 6. (Quoique purement logique, la question du type de données et du nombre de niveaux d'échelle soit distincte.)

Et si vous préférez traiter l'échelle de Likert polytomique comme ordinale? Ou vous avez des données dichotomiques? Est-il possible de faire une analyse factorielle exploratoire ou une ACP pour eux?

Il existe actuellement trois approches principales pour effectuer FA (y compris PCA comme cas spécial) sur des variables ordinales ou binaires catégorielles (lire également ce compte rendu sur le cas de données binaires et cette considération sur ce qui pourrait être fait avec l'échelle ordinale).

  1. Approche de mise à l'échelle optimale (une famille d' applications ). Également appelé PCA catégorique (CatPCA) ou FA non linéaire. Dans CatPCA, les variables ordinales sont transformées de façon monotone ("quantifiées") en leurs versions d'intervalle "sous-jacentes" dans le but de maximiser la variance expliquée par le nombre sélectionné de composants principaux extraits de ces données d'intervalle. Ce qui rend la méthode ouvertement axée sur les objectifs (plutôt que sur la théorie) et importante pour décider à l'avance du nombre de composants principaux. Si une véritable FA est nécessaire au lieu de la PCA, la FA linéaire habituelle peut alors naturellement être effectuée sur les variables transformées sorties de CatPCA. Avec les variables binaires, CatPCA (malheureusement?) Se comporte à la manière de la PCA habituelle, c'est-à-dire comme s'il s'agissait de variables continues. CatPCA accepte également les variables nominales et tout mélange de types de variables (sympa).

  2. Approche des variables sous-jacentes inférées . Également connu sous le nom de PCA / FA effectué sur des corrélations tétrachoriques (pour les données binaires) ou polychoriques (pour les données ordinales). La distribution normale est supposée pour la variable continue sous-jacente (puis groupée) pour chaque variable manifeste. Ensuite, l'AF classique est appliquée pour analyser les corrélations susmentionnées. L'approche permet facilement un mélange de données d'intervalle, ordinales et binaires. L'un des inconvénients de cette approche est que - en inférant les corrélations - elle n'a aucun indice sur la distribution multivariée des variables sous-jacentes, - peut "concevoir" tout au plus des distributions bivariées et ne se base donc pas sur des informations complètes.

  3. Approche de la théorie de la réponse à l'item (IRT). Parfois aussi appelé FA logistique ou analyse des caractères latents . Un modèle très proche du modèle logit binaire (pour les données binaires) ou des cotes logarithmiques proportionnelles (pour les données ordinales) est appliqué. L'algorithme n'est pas lié à la décomposition d'une matrice de corrélation, il est donc un peu éloigné de l'AF traditionnelle, mais il s'agit toujours d'une FA catégorique authentique. Les «paramètres de discrimination» correspondent étroitement aux charges de FA, mais les «difficultés» remplacent la notion d '«unicité» des FA. La certitude de l'ajustement IRT diminue rapidement à mesure que le nombre de facteurs augmente, ce qui est un aspect problématique de cette approche. L'IRT est extensible à sa manière pour incorporer des variables mixtes intervalle + binaire + ordinal et éventuellement nominales.

Les scores factoriels dans les approches (2) et (3) sont plus difficiles à estimer que les scores factoriels dans l'AF classique ou dans l'approche (1). Cependant, plusieurs méthodes existent (méthodes attendues ou maximales aposteriori, méthode du maximum de vraisemblance, etc.).

Les hypothèses du modèle d' analyse factorielle sont principalement les mêmes dans les trois approches que dans l'AF traditionnelle. L'approche (1) est disponible en R, SPSS, SAS (à mon avis). Les approches (2) et (3) sont implémentées principalement dans des packages de variables latentes spécialisées - Mplus, LISREL, EQS.

  1. Approche polynomiale. Cela n'a pas encore été entièrement développé. Les composants principaux peuvent être modélisés sous forme de combinaisons polynomiales de variables (l' utilisation de polynômes est un moyen populaire de modéliser les effets non linéaires des régresseurs ordinaux). De même, les catégories observées peuvent à leur tour être modélisées comme des manifestations discrètes de combinaisons polynomiales de facteurs latents.

  2. Il existe un champ florissant de techniques non linéaires de réduction de dimensionnalité; certains d'entre eux peuvent être appliqués ou adoptés pour travailler avec des données catégorielles (en particulier binaires ou après binarisation dans un jeu de données clairsemé de grande dimension).

  3. r

Regardez aussi dans ceci , ceci , ceci , ceci , ceci , ceci , ceci , ceci .


3
Réponse phénoménale. La seule chose à ajouter est que je pense que vous pouvez utiliser le paquet psych dans R pour implémenter des approches dans (2) (voir l'option "cor" pour la fonction fa) et (3) (voir les fonctions irt.fa et irt.poly ) à divers degrés, et le package ltm peut également être utilisé pour s'adapter à un certain nombre de modèles IRT.
jsakaluk

1
Ils peuvent différer. J'ai fait plusieurs fois la création / validation de l'inventaire par "FA non linéaire" (CatPCA-puis-EFA) et j'ai trouvé des résultats meilleurs que ceux de l'EFA (linéaire) habituel. La procédure que j'ai adoptée était similaire à celle de l'AF habituelle, la seule différence étant que pour chaque analyse - chaque ensemble d'articles que j'essaie et chaque nombre de facteurs que j'extrayais - j'ai fait CatPCA puis (sur les variables quantifiées) -EFA pas de deux .
ttnphns

@jsakaluk, merci beaucoup pour l'information. (Je ne suis pas utilisateur R donc je ne connais que mal sa capacité phénoménale).
ttnphns

Merci pour ces réponses approfondies. @ttnphns J'ai passé la majeure partie de la journée à essayer d'implémenter CATPCA dans SPSS 23. J'ai réussi à localiser deux didacticiels (Linting & Kooij (2012) & unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ) pour l'instant n'a pas répondu à quelques-unes de mes propres questions. Pourriez-vous suggérer un bon débouché pour répondre à certaines questions techniques? Merci encore.
user116948

1
@ user116948, Si vous ne parvenez pas à comprendre comment l'utiliser avec SPSS: Tout d'abord, recherchez et lisez l'étude de cas CATPCA dans le sous-menu SPSS Case Studies du menu Aide. Deuxièmement, parcourez toutes les questions sur CATPCA déjà posées sur ce site. Troisièmement: si vous avez encore des questions - posez-le comme une nouvelle question sur le site. Ne vous inquiétez pas: s'il est "trop ​​technique", il peut être transféré vers StackOveflow. Quatrième: choisissez une communauté SPSS pour y poser votre question (SPSSXL est le meilleur). Santé à toi.
ttnphns
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.