J'ai un algorithme de clustering (pas k-means) avec le paramètre d'entrée (nombre de clusters). Après avoir effectué le clustering, j'aimerais obtenir une mesure quantitative de la qualité de ce clustering. L'algorithme de clustering a une propriété importante. Pour si j'alimente points de données sans aucune distinction significative entre eux à cet algorithme, j'obtiendrai un cluster contenant points de données et un cluster avec point de données. Ce n'est évidemment pas ce que je veux. Je souhaite donc calculer cette mesure de qualité pour estimer le caractère raisonnable de ce regroupement. Idéalement, je pourrai comparer ces mesures pour différents . Je vais donc exécuter un clustering dans la plage deet choisissez celui avec la meilleure qualité. Comment calculer une telle mesure de qualité?
MISE À JOUR:
Voici un exemple lorsque est un mauvais clustering. Disons qu'il y a 3 points sur un plan formant un triangle équilatéral. Diviser ces points en 2 grappes est évidemment pire que de les diviser en 1 ou 3 grappes.