k
Pour plus d'explication et de clarté, je bootstrap le clustering.
En général, vous pouvez utiliser de tels regroupements rééchantillonnés pour mesurer la stabilité de votre solution: est-ce qu'elle ne change pratiquement pas ou change-t-elle complètement?
Même si vous n'avez aucune vérité fondamentale, vous pouvez bien sûr comparer le clustering qui résulte de différentes exécutions de la même méthode (rééchantillonnage) ou les résultats de différents algorithmes de clustering, par exemple en tabulant:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
comme les grappes sont nominales, leur ordre peut changer arbitrairement. Mais cela signifie que vous êtes autorisé à modifier l'ordre afin que les clusters correspondent. Ensuite, les éléments diagonaux * comptent les observations affectées au même cluster et les éléments hors diagonale montrent de quelle manière les affectations ont changé:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Je dirais que le rééchantillonnage est bon afin d'établir la stabilité de votre clustering dans chaque méthode. Sans cela, il n'est pas très logique de comparer les résultats à d'autres méthodes.
je , je
Vous ne mélangez pas la validation croisée k-fold et le clustering k-means, n'est-ce pas?