Des transformations de données sur des données non normales sont-elles nécessaires pour une analyse factorielle exploratoire lors de l'utilisation de la méthode d'extraction factorisée par axe principal?


9

Je développe un questionnaire pour mesurer quatre facteurs qui constituent la spiritualité, et je voudrais poser la question suivante:

Des transformations de données sur des données non normales sont-elles nécessaires pour une analyse factorielle exploratoire lors de l'utilisation de la méthode d'extraction factorisée par axe principal?

J'ai terminé le filtrage de mes données hier et j'ai constaté que 3 questions sur 20 sont biaisées positivement tandis que 1 sur 20 est biaisée négativement (Question 6 = 4.88, Question 9 = 7.22, Question 12 = 11.11, Question 16 = -6.26). J'ai également constaté que 1 des questions (sur 20) est leptokurtic (Question 12 = 12.21).

J'ai choisi la méthode d'extraction de la factorisation de l'axe principal parce que j'ai lu qu'elle est utilisée sur des "données sévèrement non normales" alors que la probabilité maximale est utilisée sur des données normales, mais:

  1. Comment pourrais-je savoir si mes données sont "sévèrement" non normales?

  2. Si mes données sont "sévèrement non normales", cela signifie-t-il que je peux laisser les données telles quelles (pas les transformer) et les analyser en utilisant la méthode d'extraction de factorisation des axes principaux? Ou dois-je transformer les données avant de procéder à l'EFA?

  3. Si j'ai besoin de transformer les données, quelles transformations utiliserais-je pour les éléments asymétriques positifs, asymétriques négatifs et leptokurtiques?

Réponses:


10

L'analyse factorielle est essentiellement un modèle de régression linéaire (contraint). Dans ce modèle, chaque variable analysée est la variable dépendante, les facteurs communs sont les IV et le facteur unique implicite sert de terme d'erreur. (Le terme constant est mis à zéro en raison du centrage ou de la standardisation qui sont impliqués dans le calcul des covariances ou des corrélations.) Donc, exactement comme dans la régression linéaire, il pourrait exister une hypothèse "forte" de normalité - les IV (facteurs communs) sont normaux à plusieurs variables et les erreurs (facteur unique) sont normales, ce qui conduit automatiquement à ce que le DV soit normal; et hypothèse "faible" de normalité - les erreurs (facteur unique) sont normales seulement, par conséquent le DV n'a pas besoin d'être normal. Tant en régression qu'en FA, nous admettons généralement l'hypothèse «faible» car elle est plus réaliste.

Parmi les méthodes d'extraction d'AF classiques, seule la méthode du maximum de vraisemblance, car elle s'écarte des caractéristiques de la population, indique que les variables analysées sont normales à plusieurs variables. Des méthodes comme les axes principaux ou les résidus minimaux ne nécessitent pas cette hypothèse "forte" (bien que vous puissiez le faire quand même).

N'oubliez pas que même si vos variables sont normales séparément, cela ne garantit pas nécessairement que vos données sont normales à plusieurs variables.

Acceptons l'hypothèse «faible» de normalité. Quelle est la menace potentielle provenant de données fortement biaisées, comme la vôtre, alors? Ce sont des valeurs aberrantes. Si la distribution d'une variable est fortement asymétrique, la queue plus longue devient plus influente dans le calcul des corrélations ou des covariances, et en même temps elle provoque une appréhension quant à savoir si elle mesure toujours la même construction psychologique (le facteur) que la queue plus courte. Il pourrait être prudent de comparer si les matrices de corrélation construites sur la moitié inférieure et la moitié supérieure de l'échelle de notation sont similaires ou non. S'ils sont suffisamment similaires, vous pouvez conclure que les deux queues mesurent la même chose et ne transforment pas vos variables. Sinon, vous devriez envisager de transformer ou une autre action pour neutraliser l'effet d'une longue queue "aberrante".

Les transformations sont nombreuses. Par exemple, l'élévation à une puissance> 1 ou l'exponentiation sont utilisées pour les données asymétriques à gauche, et la puissance <1 ou le logarithme - pour les asymétries à droite. Ma propre expérience dit que la soi-disant transformation optimale via l' ACP catégorique effectuée avant l'AF est presque toujours bénéfique, car elle conduit généralement à des facteurs plus clairs et interprétables dans l'AF; dans l'hypothèse où le nombre de facteurs est connu, il transforme vos données de manière non linéaire afin de maximiser la variance globale due à ce nombre de facteurs.


Merci pour votre réponse! Et recommanderiez-vous de supprimer la question 12, car elle est à la fois positivement asymétrique et leptokurtique, ou serait-il préférable de la laisser et de la transformer?
Madeline

Je m'abstiendrais de tout conseil direct, n'étant pas à votre place. De manière générale, les questions chroniquement très biaisées (= trop difficiles ou trop faciles) ou leptokurtiques (insensibles aux différences entre les répondants types) sont psychométriquement «mauvaises» et méritent d'être révisées.
ttnphns

1

Je viens de publier ce que j'ai appris de Yong et Pearce (2013).

Pour effectuer une analyse factorielle, il doit y avoir une normalité univariée et multivariée dans les données (Child, 2006)

Yong, AG et Pearce, S. (2013). Guide du débutant sur l'analyse factorielle: se concentrer sur l'analyse factorielle exploratoire. Tutoriels sur les méthodes quantitatives pour la psychologie , 9 (2), 79-94. DOI: 10.20982 / tqmp.09.2.p079

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.