Récemment, un énorme corpus de littérature sur la façon d'extraire des informations d'un texte écrit s'est développé. Par conséquent, je vais simplement décrire quatre jalons / modèles populaires et leurs avantages / inconvénients et souligner ainsi (certaines) les principales différences (ou du moins ce que je pense être les différences principales / les plus importantes).
Vous mentionnez l'approche "la plus simple", qui serait de regrouper les documents en les comparant à une requête prédéfinie de termes (comme dans PMI). Ces méthodes d'appariement lexical pourraient cependant être inexactes en raison de la polysémie (significations multiples) et de la synonymie (plusieurs mots qui ont des significations similaires) de termes uniques.
Comme remède, l'indexation sémantique latente ( LSI ) tente de surmonter cela en mappant les termes et les documents dans un espace sémantique latent via une décomposition en valeurs singulières. Les résultats de l'ISL sont des indicateurs de sens plus solides que ne le seraient les termes individuels. Cependant, un inconvénient de LSI est qu'il manque en termes de fondement probabiliste solide.
Cela a été en partie résolu par l'invention du LSI probabiliste ( pLSI ). Dans les modèles pLSI, chaque mot d'un document est tiré d'un modèle de mélange spécifié via des variables aléatoires multinomiales (ce qui permet également des co-occurrences d'ordre supérieur comme @sviatoslav hong l'a mentionné). Il s'agissait d'une avancée importante dans la modélisation probabiliste de texte, mais incomplète dans le sens où elle n'offre aucune structure probabiliste au niveau des documents.
L'allocation de Dirichlet latente ( LDA ) atténue cela et a été le premier modèle entièrement probabiliste pour le clustering de texte. Blei et al. (2003) montrent que le pLSI est un modèle de LDA estimé maximum a posteriori sous un a priori uniforme de Dirichlet.
Notez que les modèles mentionnés ci-dessus (LSI, pLSI, LDA) ont en commun d'être basés sur l'hypothèse du «sac de mots» - c'est-à-dire qu'au sein d'un document, les mots sont échangeables, c'est-à-dire que l'ordre des mots dans un document peut être négligé. Cette hypothèse d'échangeabilité offre une justification supplémentaire pour LDA par rapport aux autres approches: en supposant que non seulement les mots dans les documents sont échangeables, mais aussi les documents, c'est-à-dire que l'ordre des documents dans un corpus peut être négligé, le théorème de De Finettiindique que tout ensemble de variables aléatoires échangeables a une représentation sous forme de distribution de mélange. Ainsi, si l'on suppose que les documents et les mots peuvent être échangés dans les documents, un modèle de mélange pour les deux est nécessaire. C'est exactement ce que LDA réalise généralement, mais pas PMI ou LSI (et même pLSI pas aussi beau que LDA).