Mais je ne sais pas quelle est la différence entre la classification de texte et les modèles de sujet dans les documents
Text Classification
est une forme d'apprentissage supervisé, donc l'ensemble des classes possibles est connu / défini à l'avance et ne changera pas.
Topic Modeling
est une forme d'apprentissage non supervisé (semblable au clustering), donc l'ensemble des sujets possibles est inconnu a priori . Ils sont définis dans le cadre de la génération des modèles de sujet. Avec un algorithme non déterministe comme LDA, vous obtiendrez des rubriques différentes chaque fois que vous exécutez l'algorithme.
Text classification
implique souvent des classes mutuellement exclusives - considérez-les comme des seaux.
Mais cela n'est pas nécessaire: étant donné le bon type de données d'entrée étiquetées, vous pouvez définir une série de classificateurs binaires non mutuellement exclusifs.
Topic modeling
n'est généralement pas mutuellement exclusif: le même document peut avoir sa distribution de probabilité répartie sur de nombreux sujets. De plus, il existe également des méthodes de modélisation de sujets hiérarchiques.
Puis-je également utiliser un modèle de sujet pour les documents pour identifier un sujet plus tard. Puis-je utiliser la classification pour classer le texte à l'intérieur de ces documents?
Si vous demandez si vous pouvez prendre tous les documents affectés à un sujet par un algorithme de modélisation de sujet, puis appliquer un classificateur à cette collection, alors oui, vous pouvez certainement le faire.
Je ne suis pas sûr que cela ait beaucoup de sens, cependant: au minimum, vous devez choisir un seuil pour la distribution de probabilité du sujet au-dessus duquel vous incluerez des documents dans votre collection (généralement 0,05-0,1).
Pouvez-vous développer votre cas d'utilisation?
Soit dit en passant, il existe un excellent didacticiel sur la modélisation de sujets à l'aide de la bibliothèque MALLET pour Java disponible ici: Mise en route avec la modélisation de sujets et MALLET