J'ai besoin de quelques suggestions pour la méthode de clustering (classification non supervisée) pour un projet de conseil. Je recherche une méthode qui, espérons-le, possède les propriétés suivantes:
Le sujet de mon étude a trois propriétés. L'une est représentée par une matrice de distance (non euclidienne) et les deux autres sont sous forme de vecteurs dans l'espace euclidien. La matrice de distance provient de séquences et peut prendre la forme d'un pourcentage de dissimilarité ou d'une autre mesure de distance de séquences. L'algorithme devrait pouvoir prendre les deux vecteurs dans l'espace euclidien et la distance non euclidienne en entrée. Par exemple, les K-medoids peuvent fonctionner avec une matrice de distance mais pas les K-means.
Je voudrais que l'algorithme sélectionne automatiquement le nombre de clusters et le poids de trois propriétés (avec connaissances et contraintes préalables).
J'ai des informations sur des «centres de clusters» précédemment identifiés. Je voudrais l'incorporer en tant que valeurs antérieures ou initiales.
En tant que statisticien, je préférerais que la méthode ait une fonction de probabilité ou de perte claire.
La chose la plus proche à laquelle je peux penser est l'ajustement d'un modèle de mélange dans le cadre bayésien en utilisant MCMC à saut inversé pour déterminer le nombre de clusters. Les vecteurs dans R ^ d peuvent être facilement formulés en une vraisemblance normale, mais la façon de traiter la matrice de distance n'est pas claire pour moi. Je peux restreindre la moyenne de la probabilité normale d'être à chacune des observations pour faire fonctionner le MCMC, mais cela n'a pas de signification mathématique / statistique claire.
Quelqu'un a-t-il de l'expérience avec un problème similaire? Les suggestions de références seront très appréciées!