Je me rends donc compte que cela a déjà été demandé: par exemple, quels sont les cas d'utilisation liés à l'analyse de cluster de différentes métriques de distance? mais j'ai trouvé les réponses quelque peu contradictoires avec ce qui est suggéré devrait être possible dans la littérature.
Récemment, j'ai lu deux articles qui mentionnent l'utilisation de l'algorithme kmeans avec d'autres mesures, par exemple pour éditer la distance entre les chaînes et la "Earth Mover Distance" entre les distributions. Étant donné que ces articles mentionnent l'utilisation de kmeans avec d'autres métriques sans préciser comment , en particulier lorsqu'il s'agit de calculer la moyenne d'un ensemble de points, cela me suggère qu'il existe peut-être une méthode "standard" pour traiter cela que je ne choisis tout simplement pas sur.
Prenons par exemple cet article , qui donne une implémentation plus rapide de l'algorithme k-means. Citant le paragraphe 4 de l'introduction, l'auteur dit que son algorithme "peut être utilisé avec n'importe quelle métrique de distance de boîte noire", et dans le paragraphe suivant, il mentionne la modification de la distance comme exemple spécifique. Cependant, son algorithme calcule toujours la moyenne d'un ensemble de points et ne mentionne pas comment cela pourrait affecter les résultats avec d'autres mesures (je suis particulièrement perplexe quant à la façon dont la moyenne fonctionnerait avec la distance d'édition).
Cet autre article décrit l'utilisation de k-means pour regrouper les mains de poker pour une abstraction texas hold-em. Si vous passez à la page 2 en bas de la colonne de gauche, l'écriture de l'auteur "puis k-means est utilisée pour calculer une abstraction avec le nombre souhaité de clusters en utilisant la distance Earth Mover entre chaque paire d'histogrammes comme mesure de distance".
Je ne cherche pas vraiment quelqu'un pour m'expliquer ces articles, mais manque-t-il une méthode standard pour utiliser k-means avec d'autres mesures? La moyenne standard avec la distance du moteur de terre semble pouvoir fonctionner heuristiquement, mais la distance d'édition semble ne pas du tout correspondre au moule. J'apprécie toute idée que quelqu'un pourrait donner.
(modifier) : Je suis allé de l'avant et j'ai essayé k-means sur des histogrammes de distribution en utilisant la distance du moteur de terre (similaire à ce qui est dans le papier de poker) et cela semblait avoir bien fonctionné, les clusters qu'il produisait semblaient assez bons pour mon cas d'utilisation. Pour la moyenne, je viens de traiter les histogrammes comme des vecteurs et de faire la moyenne de la manière normale. La seule chose que j'ai remarquée, c'est que la somme sur tous les points des distances aux moyennes n'a pas toujours diminué de manière monotone. Dans la pratique cependant, il s'installerait sur un min local dans les 10 itérations malgré les problèmes monotones. Je vais supposer que c'est ce qu'ils ont fait dans le deuxième article, la seule question qui reste alors est, comment diable feriez-vous la moyenne lorsque vous utilisez quelque chose comme la distance d'édition?