L'analyse factorielle est essentiellement un modèle de régression linéaire (contraint). Dans ce modèle, chaque variable analysée est la variable dépendante, les facteurs communs sont les IV et le facteur unique implicite sert de terme d'erreur. (Le terme constant est mis à zéro en raison du centrage ou de la standardisation qui sont impliqués dans le calcul des covariances ou des corrélations.) Donc, exactement comme dans la régression linéaire, il pourrait exister une hypothèse "forte" de normalité - les IV (facteurs communs) sont normaux à plusieurs variables et les erreurs (facteur unique) sont normales, ce qui conduit automatiquement à ce que le DV soit normal; et hypothèse "faible" de normalité - les erreurs (facteur unique) sont normales seulement, par conséquent le DV n'a pas besoin d'être normal. Tant en régression qu'en FA, nous admettons généralement l'hypothèse «faible» car elle est plus réaliste.
Parmi les méthodes d'extraction d'AF classiques, seule la méthode du maximum de vraisemblance, car elle s'écarte des caractéristiques de la population, indique que les variables analysées sont normales à plusieurs variables. Des méthodes comme les axes principaux ou les résidus minimaux ne nécessitent pas cette hypothèse "forte" (bien que vous puissiez le faire quand même).
N'oubliez pas que même si vos variables sont normales séparément, cela ne garantit pas nécessairement que vos données sont normales à plusieurs variables.
Acceptons l'hypothèse «faible» de normalité. Quelle est la menace potentielle provenant de données fortement biaisées, comme la vôtre, alors? Ce sont des valeurs aberrantes. Si la distribution d'une variable est fortement asymétrique, la queue plus longue devient plus influente dans le calcul des corrélations ou des covariances, et en même temps elle provoque une appréhension quant à savoir si elle mesure toujours la même construction psychologique (le facteur) que la queue plus courte. Il pourrait être prudent de comparer si les matrices de corrélation construites sur la moitié inférieure et la moitié supérieure de l'échelle de notation sont similaires ou non. S'ils sont suffisamment similaires, vous pouvez conclure que les deux queues mesurent la même chose et ne transforment pas vos variables. Sinon, vous devriez envisager de transformer ou une autre action pour neutraliser l'effet d'une longue queue "aberrante".
Les transformations sont nombreuses. Par exemple, l'élévation à une puissance> 1 ou l'exponentiation sont utilisées pour les données asymétriques à gauche, et la puissance <1 ou le logarithme - pour les asymétries à droite. Ma propre expérience dit que la soi-disant transformation optimale via l' ACP catégorique effectuée avant l'AF est presque toujours bénéfique, car elle conduit généralement à des facteurs plus clairs et interprétables dans l'AF; dans l'hypothèse où le nombre de facteurs est connu, il transforme vos données de manière non linéaire afin de maximiser la variance globale due à ce nombre de facteurs.