Contexte : Je souhaite classer les zones résidentielles d'une ville en groupes en fonction de leurs caractéristiques socio-économiques, y compris la densité d'unités de logement, la densité de population, les espaces verts, le prix du logement, le nombre d'écoles / centres de santé / garderies, etc. Je veux comprendre combien de groupes différents les zones résidentielles peuvent être divisées et quelles sont leurs caractéristiques uniques. Ces informations pourraient faciliter la planification de la ville.
Sur la base de quelques exemples (cf., ce billet de blog: Clustering PCA et K-means de Delta Aircraft ), j'ai trouvé la façon de faire l'analyse:
Faites d'abord une analyse PCA.
Déterminer le nombre de groupes uniques (grappes) sur la base des résultats de l'ACP (par exemple, en utilisant la méthode du «coude», ou alternativement, le nombre de composants qui explique 80 à 90% de la variance totale).
Après avoir déterminé le nombre de clusters, appliquez le clustering k-means pour effectuer la classification.
Mes questions: il semble que le nombre de composants de l'ACP soit lié à l'analyse des clusters. C'est donc vrai, si, par exemple, nous avons trouvé 5 composants PCA expliqués à plus de 90% de la variation de toutes les fonctionnalités, alors nous appliquerions le clustering k-means et obtiendrions 5 clusters. Les 5 groupes correspondraient-ils exactement aux 5 composantes de l'analyse PCA?
En d'autres termes, je suppose que ma question est: Quel est le lien entre l'analyse PCA et le clustering k-means?
Mises à jour: Merci aux entrées d'Emre, de xeon et de Kirill. Donc, les réponses actuelles:
Faire PCA avant l'analyse de clustering est également utile pour réduire la dimensionnalité en tant qu'extracteur de fonctionnalités et visualiser / révéler les clusters.
Faire PCA après le clustering peut valider l'algorithme de clustering (référence: analyse du composant principal du noyau ).
L'ACP est parfois appliquée pour réduire la dimensionnalité de l'ensemble de données avant le regroupement. Cependant, Yeung et Ruzzo (2000) ont montré que le regroupement avec les PC au lieu des variables d'origine n'améliore pas nécessairement la qualité du cluster. En particulier, les premiers PC (qui contiennent la plupart des variations des données) ne capturent pas nécessairement la majeure partie de la structure du cluster.
- Yeung, Ka Yee et Walter L. Ruzzo. Une étude empirique sur l'analyse en composantes principales pour regrouper les données d'expression génique. Rapport technique, Département d'informatique et d'ingénierie, Université de Washington, 2000. ( pdf )
Il semblait que l'ACP était nécessaire avant une analyse de regroupement en deux étapes . Basé sur Ibes (2015), dans lequel l'analyse des grappes a été réalisée en utilisant les facteurs identifiés dans l'ACP.
- Ibes, Dorothy C. Une classification multidimensionnelle et une analyse de l'équité d'un système de parc urbain: une nouvelle méthodologie et une application d'étude de cas. Paysage et urbanisme , volume 137, mai 2015, pages 122–137.