Quelle est la différence entre la classification de texte et les modèles de sujet?


20

Je connais la différence entre le clustering et la classification dans l'apprentissage automatique, mais je ne comprends pas la différence entre la classification de texte et la modélisation de sujet pour les documents. Puis-je utiliser la modélisation de sujet sur des documents pour identifier un sujet? Puis-je utiliser des méthodes de classification pour classer le texte dans ces documents?

Réponses:


28

Classification de texte

Je vous donne un tas de documents, dont chacun a une étiquette attachée. Je vous demande de savoir pourquoi vous pensez que le contenu des documents a reçu ces étiquettes en fonction de leurs mots. Ensuite, je vous donne de nouveaux documents et vous demande ce que vous pensez que l'étiquette de chacun devrait être. Les étiquettes ont un sens pour moi, pas nécessairement pour vous.

Modélisation de sujets

Je vous donne un tas de documents, sans étiquettes. Je vous demande d'expliquer pourquoi les documents ont les mots qu'ils contiennent en identifiant certains sujets qui "concernent" chacun. Vous me dites les sujets, en me disant la quantité de chacun dans chaque document, et je décide ce que les sujets "signifient" le cas échéant.

Il faudrait clarifier ce que vous me dites en "identifiant un sujet" ou "classant le texte".


10

Mais je ne sais pas quelle est la différence entre la classification de texte et les modèles de sujet dans les documents

Text Classificationest une forme d'apprentissage supervisé, donc l'ensemble des classes possibles est connu / défini à l'avance et ne changera pas.

Topic Modelingest une forme d'apprentissage non supervisé (semblable au clustering), donc l'ensemble des sujets possibles est inconnu a priori . Ils sont définis dans le cadre de la génération des modèles de sujet. Avec un algorithme non déterministe comme LDA, vous obtiendrez des rubriques différentes chaque fois que vous exécutez l'algorithme.

Text classificationimplique souvent des classes mutuellement exclusives - considérez-les comme des seaux.
Mais cela n'est pas nécessaire: étant donné le bon type de données d'entrée étiquetées, vous pouvez définir une série de classificateurs binaires non mutuellement exclusifs.

Topic modelingn'est généralement pas mutuellement exclusif: le même document peut avoir sa distribution de probabilité répartie sur de nombreux sujets. De plus, il existe également des méthodes de modélisation de sujets hiérarchiques.

Puis-je également utiliser un modèle de sujet pour les documents pour identifier un sujet plus tard. Puis-je utiliser la classification pour classer le texte à l'intérieur de ces documents?

Si vous demandez si vous pouvez prendre tous les documents affectés à un sujet par un algorithme de modélisation de sujet, puis appliquer un classificateur à cette collection, alors oui, vous pouvez certainement le faire.

Je ne suis pas sûr que cela ait beaucoup de sens, cependant: au minimum, vous devez choisir un seuil pour la distribution de probabilité du sujet au-dessus duquel vous incluerez des documents dans votre collection (généralement 0,05-0,1).

Pouvez-vous développer votre cas d'utilisation?

Soit dit en passant, il existe un excellent didacticiel sur la modélisation de sujets à l'aide de la bibliothèque MALLET pour Java disponible ici: Mise en route avec la modélisation de sujets et MALLET


4

Les modèles de sujet ne sont généralement pas supervisés . Il existe également des «modèles de sujets supervisés»; mais même alors, ils essaient de modéliser des sujets au sein d'une classe .

Par exemple, vous pouvez avoir une classe "football", mais il peut y avoir des sujets à l'intérieur de cette classe qui se rapportent à des matchs ou des équipes particulières.

Le défi des sujets est qu'ils changent avec le temps; considérons l'exemple de correspondance ci-dessus. De tels sujets peuvent émerger et disparaître à nouveau.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.