Tracé visuel de données de grappe multidimensionnelles

17

J'ai un ensemble de données avec 16 variables, et après regroupement par kmeans, je souhaite tracer les deux groupes.

Quelles parcelles proposez-vous pour représenter visuellement les deux grappes?

data-visualization clustering k-means

— DJ_
source

23

Il n'y a pas une seule visualisation correcte. Cela dépend de quel aspect des clusters vous souhaitez voir ou mettre en valeur.

Voulez-vous voir comment chaque variable contribue? Considérons un tracé de coordonnées parallèles.

Coordonnées parallèles pour deux clusters et moyennes de cluster

Voulez-vous voir comment les clusters sont distribués le long des principaux composants? Considérons un biplot (en 2D ou 3D):

Biplot de cluster

Voulez-vous rechercher des valeurs aberrantes de cluster sur toutes les dimensions. Considérons un nuage de points de la distance du centre du cluster 1 par rapport à la distance du centre du cluster 2. (Par définition de K signifie que chaque cluster tombera d'un côté de la ligne diagonale.)

entrez la description de l'image ici

Voulez-vous voir les relations par paire par rapport au clustering. Considérons une matrice de nuage de points colorée par grappe.

entrez la description de l'image ici

Voulez-vous voir une vue récapitulative des distances de cluster? Envisagez une comparaison de toute visualisation de distribution, comme les histogrammes, les tracés de violon ou les tracés de boîte.

entrez la description de l'image ici

— xan
source

2

Les affichages multivariés sont délicats, en particulier avec ce nombre de variables. J'ai deux suggestions.

S'il y a certaines variables qui sont particulièrement importantes pour le clustering, ou substantiellement intéressantes, vous pouvez utiliser une matrice de nuage de points et afficher les relations bivariées entre vos variables intéressantes. Vous pouvez même utiliser des diagrammes de dispersion améliorés (par exemple, utiliser des formes avec une taille proportionnelle à une troisième variable) pour ajouter un peu plus de dimensionnalité

Alternativement, vous pouvez utiliser un plot de printemps qui a été développé pour afficher des données de haute dimension qui présentent des regroupements. Remarque, je n'ai jamais vu cela dans la littérature que je connais, mais je pense que c'est une façon très intéressante d'afficher des données multivariées. La citation suivante est l'endroit où l'intrigue a été initialement proposée.

Hoffman, PE et al. (1997) Exploration de données ADN visuelle et analytique. Dans les actes de la visualisation IEEE. Phoenix, AZ, p. 437-441.

Et ici est là que je trouve à l' origine mention.

Maintenant, juste avertissement, je n'ai pas pu trouver une implémentation de tremplins en dehors d'Orange. Là encore, je n'ai pas cherché si fort!

Je suppose que vos données sont réelles et continues, si elles sont discrètes ou sans intervalle, etc., je ne pense pas que les graphiques soient utiles.

— Teague
source

1

Il existe une implémentation Radviz pour R: cran.r-project.org/web/packages/Radviz/vignettes/…

— pmav99

1

Vous pouvez utiliser la fonction fviz_cluster de factoextra pacakge dans R. Il montrera le nuage de points de vos données et les différentes couleurs des points seront le cluster.

Au meilleur de ma compréhension, cette fonction exécute l'ACP, puis choisit les deux premiers PC et trace ceux-ci en 2D.

Toute suggestion / amélioration de ma réponse est la bienvenue.

— Rohit parihar
source