Q: Quelle est la méthode standard pour regrouper des données à l'aide d'un processus Dirichlet?
Lors de l'utilisation de Gibbs, des grappes d'échantillonnage apparaissent et disparaissent pendant l'échantillonnage. Par ailleurs, nous avons un problème d'identifiabilité car la distribution postérieure est invariante aux ré-étiquetages de cluster. Ainsi, nous ne pouvons pas dire quel est le cluster d'un utilisateur mais plutôt que deux utilisateurs sont dans le même cluster (c'est-à-dire ).
Pouvons-nous résumer les affectations de classe de sorte que, si est l'affectation de cluster du point , nous avons maintenant non seulement que mais que ?
Ce sont les alternatives que j'ai trouvées et pourquoi je pense qu'elles sont incomplètes ou erronées.
(1) DP-GMM + échantillonnage de Gibbs + matrice de confusion basée sur les paires
Pour utiliser un modèle de mélange gaussien de processus de Dirichlet (DP-GMM) pour un regroupement, j'ai mis en œuvre cet article où les auteurs proposent un DP-GMM pour l' estimation de la densité utilisant l'échantillonnage de Gibbs.
Pour explorer les performances de clustering, ils disent:
Étant donné que le nombre de composants change sur la chaîne [MCMC], il faudrait former une matrice de confusion montrant la fréquence de chaque paire de données affectée au même composant pour toute la chaîne, voir Fig. 6.
Inconvénients : Ce n'est pas un véritable clustering "complet" mais un clustering par paire. La figure est si jolie car nous connaissons les vrais clusters et organisons la matrice en conséquence.
(2) DP-GMM + échantillonnage Gibbs + échantillon jusqu'à ce que rien ne change
J'ai cherché et j'ai trouvé des gens qui prétendaient faire du clustering basé sur Dirichlet Process en utilisant un échantillonneur Gibbs. Par exemple, cet article considère que la chaîne converge lorsqu'il n'y a plus de changements ni dans le nombre de grappes ni dans les moyennes, et obtient donc les résumés à partir de là.
Inconvénients : je ne suis pas sûr que cela soit autorisé car, si je ne me trompe pas:
(a) il pourrait y avoir des changements d'étiquette pendant la MCMC.
(b) même dans la distribution stationnaire, l'échantillonneur peut créer un groupe de temps en temps.
(3) DP-GMM + échantillonnage de Gibbs + choisir l'échantillon avec la partition la plus probable
Dans cet article , les auteurs disent:
Après une période de «rodage», des échantillons non biaisés de la distribution postérieure de l'IGMM peuvent être tirés de l'échantillonneur Gibbs. Un regroupement difficile peut être trouvé en tirant un grand nombre de ces échantillons et en utilisant l'échantillon avec la plus forte probabilité conjointe des variables d'indicateur de classe. Nous utilisons une implémentation IGMM modifiée écrite par M. Mandel .
Inconvénients : à moins qu'il ne s'agisse d'un échantillonneur de Gibbs réduit où nous échantillonnons uniquement les affectations, nous pouvons calculer mais pas le p marginal ( c ) . (Serait-ce plutôt une bonne pratique d'obtenir l'état avec le p le plus élevé ( c , θ ) ?)
(4) DP-GMM avec inférence variatonale :
J'ai vu que certaines bibliothèques utilisent l'inférence variationnelle. Je ne connais pas beaucoup l'inférence variationnelle mais je suppose que vous n'y avez pas de problèmes d'identification. Cependant, je voudrais m'en tenir aux méthodes MCMC (si possible).
Toute référence serait utile.