J'utilise actuellement l'analyse des composants principaux pour sélectionner les variables à utiliser dans la modélisation. En ce moment, je fais des mesures A, B et C dans mes expériences - Ce que je veux vraiment savoir, c'est: Puis-je faire moins de mesures et arrêter l'enregistrement de C et ou B pour gagner du temps et des efforts?
Je trouve que les 3 variables se chargent lourdement sur ma première composante principale qui représente 60% de la variance dans mes données. Les scores des composants me disent que si j'additionne ces variables ensemble dans un certain rapport (aA + bB + cC). Je peux obtenir un score sur PC1 pour chaque cas dans mon jeu de données et je pourrais utiliser ce score comme variable dans la modélisation, mais cela ne me permet pas d'arrêter de mesurer B et C.
Si je mets au carré les charges de A et B et C sur PC1, je trouve que la variable A représente 65% de la variance dans PC1 et la variable B représente 50% de la variance dans PC1 et la variable C également 50%, c'est-à-dire certains de la variance dans PC1 expliquée par chaque variable A, B et C est partagée avec une autre variable, mais A arrive en tête pour un peu plus.
Est-il faux de penser que je pourrais simplement choisir la variable A ou éventuellement (aA + bB, si nécessaire) à utiliser dans la modélisation parce que cette variable décrit une grande proportion de la variance dans PC1 et cela à son tour décrit une grande proportion de la variance dans les données?
Quelle approche avez-vous choisie par le passé?
- Variable unique qui charge le plus lourd sur PC1 même s'il existe d'autres chargeurs lourds?
- Score des composants sur PC1 en utilisant toutes les variables même si ce sont tous des chargeurs lourds?