Je n'utiliserais pas de modèles de mélange gaussiens , car ils exigent que les distributions des constituants soient toutes normales. Vous avez des comptes, donc GMM est inapproprié par définition.
L'allocation de Dirichlet latente (divulgation complète: je ne connais pas vraiment la modélisation de sujet) nécessite que vos données soient multinomiales , mais vous pouvez avoir des décomptes dans ce cas - ce seraient des décomptes d'occurrences de différentes catégories d'une variable. Une autre possibilité est que vos comptes soient des comptes de différentes variables, comme pour avoir plusieurs variables de Poisson . C'est un peu une question ontologique pour savoir comment vous pensez de vos données.
Prenons un exemple simple où je vais à l'épicerie parce que je veux des fruits. J'achèterai un certain nombre de pommes, d'oranges, de pêches et de bananes. Chacun de ceux-ci pourrait être considéré comme une variable de Poisson distincte. Quand je rentre chez moi, je les mets tous dans un bol de fruits. Plus tard, quand j'ai envie de grignoter, je pourrais atteindre le bol sans regarder et attraper deux fruits (par exemple, une pomme et une pêche). Cela peut être considéré comme un tirage d'une distribution multinomiale. Dans les deux cas, j'ai des décomptes de catégories, mais nous les pensons différemment. Dans le premier cas, les fruits que j'achèterai sont connus avant d'arriver à l'épicerie, mais le nombre acheté dans chaque catégorie peut varier. Dans le deuxième cas, je ne sais pas quels fruits je vais cueillir mais je sais que j'en attrape deux parmi les types possibles.
Si vos données ressemblent à l'exemple de la corbeille à fruits, LDA peut vous convenir. D'un autre côté, s'ils ressemblent à l'exemple de l'épicerie, vous pouvez essayer la modélisation du mélange fini de Poisson . Autrement dit, vous pouvez utiliser la modélisation de mélange avec des distributions autres que gaussiennes / normales. Les GMM sont de loin les plus courants; d'autres distributions (comme Poisson) sont plus exotiques. Je ne sais pas à quel point ils sont largement mis en œuvre dans les logiciels. Si vous utilisez R, Google a conduit à la découverte de ? PoisMixClus dans le package HTSCluster et le package rebmix (notez que je n'ai jamais utilisé non plus, ni fait de modélisation de mélange de Poisson). Il peut également être possible de trouver des implémentations pour d'autres logiciels.
Ajout de quelques détails: je dirais que le LDA est au moins autant une technique bayésienne que le GMM.
- Je soupçonne que la différenciation la plus importante entre LDA et GMM est le type de données qu'ils supposent avoir.
- Vous ne pouvez pas les comparer, car ils concernent différents types de données. (Je ne voudrais pas non plus vraiment comparer le LDA et le MM de Poisson, car ils conceptualisent les comptes différemment.)
Je ne voudrais pas dichotomiser vos données en zéro / non nul.