Cette réponse est délibérément non mathématique et est orientée vers un psychologue non statisticien (par exemple) qui demande s'il peut additionner / moyenne des scores factoriels de différents facteurs pour obtenir un score "indice composite" pour chaque répondant.
La somme ou la moyenne des scores de certaines variables suppose que les variables appartiennent à la même dimension et sont des mesures fongibles. (Dans la question, les "variables" sont des scores de composante ou de facteur , ce qui ne change rien, car ce sont des exemples de variables.)
( .8 + .8 ) / 2 = .8( 1,2 + 0,4 ) / 2 = 0,8.8X+ YXOuiséparément. Les variables corrélées, représentant la même dimension, peuvent être considérées comme des mesures répétées de la même caractéristique et la différence ou la non équivalence de leurs scores comme une erreur aléatoire. Il est donc warranded à somme / moyenne des scores sont attendus depuis des erreurs aléatoires annulent en spe .
XOui
.82+ .82-------√≈ 1,131.22+ .42--------√≈ 1,26X= 0,8Oui= - .8X= 0Oui= 0
wXXje+ wOuiOuijeXOuiwXwOuisont fixés constants pour tous les répondants i, ce qui est la cause du défaut. Pour relier l'écart bivarié d'un répondant - dans un cercle ou une ellipse - des poids dépendant de ses scores doivent être introduits; la distance euclidienne considérée plus haut est en fait un exemple d'une telle somme pondérée avec des poids dépendant des valeurs. Et s'il est important pour vous d'incorporer des variances inégales des variables (par exemple des principales composantes, comme dans la question), vous pouvez calculer la distance euclidienne pondérée, la distance qui sera trouvée sur la figure 2 après que le cercle soit allongé.
| .8 | + | .8 | =1,6| 1.2 | + | .4 | =1,6X= 0,8Oui= - .81,60
(Vous pourriez vous exclamer "Je vais rendre tous les scores de données positifs et calculer la somme (ou la moyenne) avec bonne conscience depuis que j'ai choisi la distance Manhatten", mais pensez-vous s'il vous plaît - avez-vous le droit de déplacer l'origine librement? Principaux composants ou facteurs, par exemple, sont extraites à condition que les données aient été centrées sur la moyenne, ce qui est logique. Une autre origine aurait produit d'autres composants / facteurs avec d'autres scores. Non, la plupart du temps vous ne pouvez pas jouer avec l'origine - le lieu de "répondant typique" ou de "trait de niveau zéro" - comme vous avez envie de jouer.)
Pour résumer , si le but de la construction composite est de refléter les positions des répondants relativement à un «zéro» ou à un locus typique mais que les variables ne sont pratiquement pas corrélées, une sorte de distance spatiale par rapport à cette origine, et non une moyenne (ou une somme), pondérée ou non pondéré, doit être choisi.
Eh bien, la moyenne (somme) aura un sens si vous décidez de voir les variables (non corrélées) comme des modes alternatifs pour mesurer la même chose. De cette façon, vous ignorez délibérément la nature différente des variables. En d'autres termes, vous quittez consciemment la Fig. 2 en faveur de la Fig. 1: vous "oubliez" que les variables sont indépendantes. Ensuite, faites la somme ou la moyenne. Par exemple, les scores sur le "bien-être matériel" et sur le "bien-être émotionnel" pourraient être moyennés, de même que les scores sur le "QI spatial" et sur le "QI verbal". Ce type de purement pragmatique, les composites satistiquement non approuvés sont appelés indices de batterie (un ensemble de tests ou de questionnaires qui mesurent des choses sans rapport ou des choses corrélées dont nous ignorons les corrélations est appelé "batterie"). Les indices de batterie n'ont de sens que si les scores ont la même direction (comme la richesse et la santé émotionnelle sont considérées comme un «meilleur» pôle). Leur utilité en dehors des paramètres ad hoc étroits est limitée.
Si les variables sont des relations entre elles - elles sont considérablement corrélées mais pas encore assez fortement pour les voir comme des doublons, des alternatives les unes des autres, nous additionnons souvent (ou faisons la moyenne) leurs valeurs de manière pondérée. Ensuite, ces poids doivent être soigneusement conçus et ils doivent refléter, de telle ou telle manière, les corrélations. C'est ce que nous faisons, par exemple, au moyen de l'ACP ou de l'analyse factorielle (FA) où nous calculons spécialement les scores composant / facteur. Si vos variables sont elles-mêmes déjà des scores de composante ou de facteur (comme le dit la question OP ici) et qu'elles sont corrélées (en raison de la rotation oblique), vous pouvez les soumettre (ou directement la matrice de chargement) à l'APC / FA de second ordre pour trouver les poids et obtenez le PC / facteur de second ordre qui servira "l'indice composite" pour vous.
Mais si vos scores de composante / facteur n'étaient pas corrélés ou faiblement corrélés, il n'y a aucune raison statistique de ne pas les additionner sans ambages ni de déduire des poids. Utilisez plutôt une certaine distance. Le problème de la distance est qu'elle est toujours positive: vous pouvez dire à quel point un répondant est atypique mais ne peut pas dire s'il est "au-dessus" ou "en dessous". Mais c'est le prix à payer pour exiger un seul index hors de l'espace multi-traits. Si vous voulez à la fois une déviation et un signe dans un tel espace, je dirais que vous êtes trop exigeant.
Sur ce dernier point, le PO demande s'il est juste de ne prendre que le score d'une variable la plus forte par rapport à sa variance - 1ère composante principale dans ce cas - comme seul proxy, pour l '"indice". Il est logique que ce PC soit beaucoup plus puissant que les autres PC. Bien que l'on puisse se demander alors "si elle est tellement plus forte, pourquoi ne l'avez-vous pas extraite / conservée uniquement?".