Existe-t-il un moyen de déterminer quelles caractéristiques / variables de l'ensemble de données sont les plus importantes / dominantes dans une solution de cluster k-means?
Existe-t-il un moyen de déterminer quelles caractéristiques / variables de l'ensemble de données sont les plus importantes / dominantes dans une solution de cluster k-means?
Réponses:
Une façon de quantifier l'utilité de chaque caractéristique (= variable = dimension), tirée du livre Burns, Robert P. et Richard Burns. Méthodes de recherche commerciale et statistiques utilisant SPSS. Sage, 2008. ( miroir ), l'utilité étant définie par le pouvoir discriminant des caractéristiques pour distinguer les grappes.
Nous examinons généralement les moyennes de chaque cluster sur chaque dimension à l'aide de l'ANOVA pour évaluer à quel point nos clusters sont distincts. Idéalement, nous obtiendrions des moyennes sensiblement différentes pour la plupart, sinon toutes les dimensions, utilisées dans l'analyse. L'amplitude des valeurs F effectuées sur chaque dimension est une indication de la façon dont la dimension respective discrimine entre les clusters.
Une autre façon serait de supprimer une fonctionnalité spécifique et de voir comment cela affecte les indices de qualité internes . Contrairement à la première solution, vous devrez refaire le clustering pour chaque fonctionnalité (ou ensemble de fonctionnalités) que vous souhaitez analyser.
Pour info:
Je peux penser à deux autres possibilités qui se concentrent davantage sur les variables importantes pour quels clusters.
Classification multi-classes. Considérez les objets qui appartiennent aux membres du cluster x de la même classe (par exemple, la classe 1) et les objets qui appartiennent aux autres membres du cluster d'une deuxième classe (par exemple, la classe 2). Former un classificateur pour prédire l'appartenance à une classe (par exemple, classe 1 vs classe 2). Les coefficients variables du classifieur peuvent servir à estimer l'importance de chaque variable dans le regroupement d'objets pour regrouper x . Répétez cette approche pour tous les autres clusters.
Similitude de variable intra-cluster. Pour chaque variable, calculez la similitude moyenne de chaque objet avec son centre de gravité. Une variable qui a une forte similitude entre un centroïde et ses objets est probablement plus importante pour le processus de clustering qu'une variable qui a une faible similitude. Bien sûr, la magnitude de similitude est relative, mais maintenant les variables peuvent être classées selon le degré auquel elles aident à regrouper les objets dans chaque cluster.