Formalisations de clustering autres que K-means pour les données séparables


11

Les données du monde réel ont parfois un nombre naturel de clusters (essayer de les regrouper en un nombre de clusters inférieur à certains k magiques entraînera une augmentation spectaculaire du coût de clustering). Aujourd'hui, j'ai assisté à une conférence du Dr Adam Meyerson et il a qualifié ce type de données de "données séparables".

Quelles sont les formalisations de clustering, autres que K-means, qui pourraient se prêter à des algorithmes de clustering (approximations ou heuristiques) qui exploiteraient la séparabilité naturelle des données?

Réponses:


11

Un modèle récent essayant de saisir une telle notion est celui de Balcan, Blum et Gupta '09. Ils donnent des algorithmes pour différents objectifs de clustering lorsque les données satisfont à une certaine hypothèse: à savoir que si les données sont telles que toute approximation pour l'objectif de clustering est ϵ- proche du clustering optimal, alors ils peuvent donner des algorithmes efficaces pour trouver un presque - regroupement optimal, même pour les valeurs de c pour lesquelles trouver la c- approximation est NP-difficile. Il s'agit d'une hypothèse selon laquelle les données sont en quelque sorte "agréables" ou "séparables". Lipton a un joli blog à ce sujet.cϵcc

αα

Je suis sûr qu'il y a des travaux antérieurs et des notions pertinentes antérieures, mais ce sont des résultats théoriques récents liés à votre question.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.