Je dois réduire le nombre de variables pour effectuer une analyse de cluster. Mes variables sont fortement corrélées, j'ai donc pensé faire une analyse factorielle PCA (analyse en composantes principales). Cependant, si j'utilise les scores obtenus, mes grappes ne sont pas tout à fait correctes (par rapport aux classifications précédentes dans la littérature).
Question:
Puis-je utiliser la matrice de rotation pour sélectionner les variables avec les charges les plus importantes pour chaque composant / facteur et utiliser uniquement ces variables pour mon clustering?
Toute référence bibliographique serait également utile.
Mise à jour:
Quelques clarifications:
Mon objectif: je dois exécuter une analyse de clusters avec un algorithme en deux étapes par SPSS, mais mes variables ne sont pas indépendantes, j'ai donc pensé à en supprimer certaines.
Mon jeu de données: je travaille sur 15 paramètres scalaires (mes variables) de 100 000 cas. Certaines variables sont fortement corrélées ( Pearson)
Mon doute: comme je n'ai besoin que de variables indépendantes, j'ai pensé à exécuter une analyse des composants principaux (désolé: j'ai parlé à tort de l'analyse factorielle dans ma question d'origine, mon erreur) et de sélectionner uniquement les variables avec les plus grandes charges pour chaque composant. Je sais que le processus PCA présente des étapes arbitraires, mais j'ai découvert que cette sélection est en fait similaire à la " méthode B4 " proposée par IT Jolliffe (1972 & 2002) pour sélectionner les variables et suggérée également par JR King & DA Jackson en 1999 .
Je pensais donc sélectionner de cette manière des sous-groupes de variables indépendantes. J'utiliserai ensuite les groupes pour exécuter différentes analyses de grappes et je comparerai les résultats.