Comment définir le nombre de clusters dans le clustering K-means?

Existe-t-il un moyen de déterminer le numéro de cluster optimal ou dois-je simplement essayer différentes valeurs et vérifier les taux d'erreur pour décider de la meilleure valeur?

clustering unsupervised-learning

— berkay
source

@berkay Comment définissez-vous un taux d'erreur pour cette méthode non supervisée? (ou voulez-vous dire au sein des SS?)

— chl

@chl, je peux utiliser la somme des erreurs quadratiques pour tous les clusters ou la précision globale (dans ce cas, je connais les étiquettes de classe.)

— berkay

@berkay Un algorithme simple pour trouver le nombre de clusters consiste à calculer le WSS moyen pour 20 exécutions de k-moyennes sur un nombre croissant de clusters (commençant par 2 et se terminant par disons 9 ou 10), et conservant la solution qui a WSS minimal sur cet ensemble de clusters. Une autre méthode est la statistique Gap . Mais si vous avez déjà des instances étiquetées, alors pourquoi essayez-vous une méthode non supervisée?

— chl

@chl merci, bonne question, on peut deviner les clusters en fonction des fonctionnalités des intances, j'analyse les nouvelles caractéristiques d'intrusion, le mimétisme des applications légales.

— berkay

J'ai répondu à un Q similaire avec une demi-douzaine de méthodes (en utilisant R) ici: stackoverflow.com/a/15376462/1036500

— Ben

La méthode que j'utilise consiste à utiliser CCC (Cubic Clustering Criteria). Je cherche à augmenter le CCC au maximum lorsque j'augmente le nombre de clusters de 1, puis j'observe quand le CCC commence à diminuer. À ce stade, je prends le nombre de clusters au maximum (local). Cela reviendrait à utiliser un tracé éboulis pour sélectionner le nombre de composants principaux.

Rapport technique SAS A-108 Cubic Clustering Criterion ( pdf )

= nombre d'observations = nombre dans le cluster = nombre de variables = nombre de clusters = matrice de données = matrice de cluster signifie = indicateur de cluster ( si obs . dans le cluster , 0 sinon) $n$
$n_k$ $k$
$p$
$q$
$X$ $n\times p$
$M$ $q\times p$
$Z$ $z_{ik}=1$ $i$ $k$

Supposons que chaque variable a une moyenne de 0:
, $Z’Z = \text{diag}(n_1, \cdots, n_q)$ $M = (Z’Z)-1Z’X$

Matrice (totale) = = (entre les grappes) matrice = = (au sein des grappes) matrice = = $SS$ $T$ $X’X$
$SS$ $B$ $M’ Z’Z M$
$SS$ $W$ $T-B$

$R^2 = 1 – \frac{\text{trace(W)}}{\text{trace}(T)}$
(trace = somme des éléments diagonaux)

Empilez des colonnes de dans une longue colonne. Régression sur le produit de Kronecker de avec la matrice d'identité Calculer pour cette régression - même $X$
$Z$ $p\times p$
$R^2$ $R^2$

L'idée CCC est de comparer le vous obtenez pour un ensemble donné de clusters avec le vous obtiendriez en regroupant un ensemble de points uniformément répartis dans un espace dimensionnel . $R^2$ $R^2$ $p$

— Ralph Winters
source

Il existe d'autres critères que le CCC. Jetez un œil à Déterminer le nombre de clusters dans un ensemble de données , pour voir les principaux.

— Vincent Labatut