Comme il s’agit d’un des principaux succès de Google dans ce domaine, je tiens à souligner que l’allocation de Dirichlet latent (LDA), les processus de Dirichlet hiérarchique (HDP) et l’ allocation hiérarchique de Dirichlet latent (hLDA) sont tous des modèles distincts.
LDA modélise les documents en tant que mélanges de Dirichlet d'un nombre fixe de sujets, choisis en tant que paramètres du modèle par l'utilisateur, qui sont eux-mêmes des mélanges de Dirichlets de mots. Cela génère un regroupement probabiliste plat et doux de termes en sujets et de documents en sujets.
HDP modélise les sujets sous forme de mélanges de mots, un peu comme LDA, mais plutôt que les documents sont un mélange de nombre de sujets, le nombre de sujets est généré par un processus de dirichlet, le nombre de sujets étant également une variable aléatoire. La partie "hiérarchique" du nom fait référence à un autre niveau ajouté au modèle génératif (le processus dirichlet produisant le nombre de sujets), et non aux sujets eux-mêmes - les sujets sont toujours des regroupements à plat.
hLDA, d’autre part, est une adaptation de LDA qui modélise des sujets comme des mélanges d’un nouveau niveau distinct de sujets, tirés de distributions de Dirichlet.et non des processus. Il traite toujours le nombre de sujets comme un hyperparamètre, c’est-à-dire indépendamment des données. La différence réside dans le fait que la classification est maintenant hiérarchique: elle apprend à classer le premier ensemble de sujets eux-mêmes, donnant ainsi des relations plus générales et abstraites entre les sujets (et donc les mots et les documents). Pensez-y comme au regroupement des échanges de piles en mathématiques, sciences, programmation, histoire, etc., par opposition à la regroupement de la science des données et de la validation croisée dans un sujet abstrait de statistiques et de programmation qui partage certains concepts avec, par exemple, le génie logiciel. les échanges sont regroupés à un niveau plus concret avec les échanges informatiques, et la similitude entre tous les échanges mentionnés n'apparaît pas autant jusqu'à la couche supérieure des grappes.