Utilisation de mots de sujet générés par LDA pour représenter un document


8

Je veux faire la classification des documents en représentant chaque document comme un ensemble de fonctionnalités. Je sais qu'il y a plusieurs façons: BOW, TFIDF, ...

Je veux utiliser l'allocation de Dirichlet latente (LDA) pour extraire les mots-clés de rubrique de CHAQUE document UNIQUE. le document est représenté par ces mots de sujet. Mais je ne sais pas si c'est raisonnable parce qu'à mon avis, LDA est généralement utilisé pour extraire les mots du sujet partagés par UN BUNCH OF documents.

LDA peut-il être utilisé pour détecter le sujet d'un document UNIQUE?

Réponses:


13

LDA peut-il être utilisé pour détecter le sujet d'un document UNIQUE?

Oui, dans sa représentation particulière du «sujet», et compte tenu d'un corpus de formation de documents (généralement liés).

LDA représente des sujets comme des distributions sur des mots et des documents comme des distributions sur des sujets. Autrement dit, l'un des objectifs mêmes de la LDA est d'arriver à une représentation probabiliste de chaque document comme un ensemble de sujets. Par exemple, l'implémentation LDA dans gensimpeut renvoyer cette représentation pour tout document donné.

Mais cela dépend des autres documents du corpus: tout document donné aura une représentation différente s'il est analysé dans le cadre d'un corpus différent.

Ce n'est généralement pas considéré comme une lacune: la plupart des applications de LDA se concentrent sur des documents connexes. Le document introduisant LDA l'applique à deux corpus, l'un des articles Associated Press et l'autre des résumés d'articles scientifiques. Le billet de blog bien accessible d'Edwin Chen applique la LDA à une tranche de courriels du temps de Sarah Palin en tant que gouverneur de l'Alaska.

Si votre application exige la séparation des documents en classes connues s'excluant mutuellement, les rubriques dérivées de LDA peuvent être utilisées comme fonctionnalités pour la classification. En effet, le document initial fait exactement cela avec le corpus AP, avec de bons résultats.

De même, la démonstration de Chen ne trie pas les documents en classes exclusives, mais ses documents concentrent principalement leur probabilité sur des sujets LDA uniques. Comme David Blei l'explique dans cette conférence vidéo , les prieurs Dirichlet peuvent être choisis pour favoriser la rareté. Plus simplement, "un document est pénalisé pour l'utilisation de nombreux sujets", comme le disent ses diapositives. Cela semble que la LDA la plus proche puisse accéder à un seul sujet non supervisé, mais ne garantit certainement pas que chaque document sera représenté comme tel.


Merci pour votre réponse. Puis-je entrer un seul document, plutôt qu'un ensemble de documents, dans LDA et utiliser les mots de sortie comme sujet du document?
Munichong

Par «saisir un seul document», voulez-vous dire «utiliser un ensemble de formation composé d'un seul document»? Ou, "extraire des sujets d'un document unique et hors échantillon à l'aide d'un modèle formé"?
Sean Easter du

Je veux dire "utiliser un ensemble de formation composé d'un seul document" et spécifier le nombre de sujets cibles à 1, c'est-à-dire extraire un sujet (un ensemble de mots) du seul document de formation.
Munichong

Je n'ai jamais essayé, donc je ne peux pas confirmer positivement comment une implémentation traiterait cette entrée. Mais utiliser un seul document et un seul sujet défierait certaines hypothèses génératrices du modèle. Vous supposeriez essentiellement que chaque mot du document provient d'une seule distribution multinomiale; le postérieur pour son paramètre ne serait guère plus qu'un compte normalisé de mots dans le document. Tout cela pour dire que j'ai du mal à voir comment cela pourrait produire une sortie significative. Ce serait comme calculer tf-idf sur un corpus de un: la statistique repose sur les caractéristiques du corpus plus large.
Sean Easter
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.