Modèles de sujet pour les documents courts

14

Inspiré par cette question , je me demande si des travaux ont été effectués sur des modèles de sujet pour de grandes collections de textes extrêmement courts. Mon intuition est que Twitter devrait être une inspiration naturelle pour de tels modèles. Cependant, à partir d'une expérimentation limitée, il semble que les modèles de sujet standard (LDA, etc.) fonctionnent assez mal sur ce type de données.

Quelqu'un connaît-il du travail qui a été fait dans ce domaine? Cet article parle de l'application de LDA à Twitter, mais je suis vraiment intéressé de savoir s'il existe d'autres algorithmes qui fonctionnent mieux dans le contexte des documents courts.

— Martin O'Leary
source

2

Twitter est un ensemble de données particulièrement difficile pour la modélisation de sujets non seulement en raison de la petite taille des «documents», mais également en raison du type de texte. Les gens ont tendance à utiliser divers raccourcis textuels, ce qui rend l'identification des cooccurrences encore plus difficile.

— Nick

Voir la liste des bons articles et les codes sources correspondants pour la modélisation des sujets sur les tweets à: quora.com/…

— NQD

7

Il s'agit d'une réponse tardive, mais elle peut être utile pour d'autres personnes à la recherche de recherches et d'outils connexes pour ce problème:

Weiwei Guo de Columbia a implémenté du code pour la modélisation de sujets de texte court. Il a décrit la mise en œuvre dans le document "Modélisation des phrases dans l'espace latent" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) et le code est disponible ici: http: // www .cs.columbia.edu / ~ weiwei / code.html
Bien qu'il ne s'agisse pas de modélisation de sujet, si vous avez une tâche de classification impliquant de courts morceaux de texte, vous pouvez utiliser LibShortText. De la description de leur site Web

"LibShortText est un outil open source pour la classification et l'analyse de texte court. Il peut gérer la classification, par exemple, des titres, des questions, des phrases et des messages courts ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— DPS
source

6

Bien que je ne sois pas très familier avec son travail, je sais que Jacob Eisenstein a fait du travail dans l'analyse de texte et les modèles graphiques dans les données Twitter. En particulier, cet article décrit une application de la modélisation de sujets dans les données Twitter et les microblogs.

Edit: en fait, après avoir lu un peu plus l'article, ils déclarent:

Cependant, le message moyen sur Twitter n'est que de seize jetons de mots, ce qui est trop rare pour la modélisation de sujet traditionnelle; au lieu de cela, nous avons rassemblé tous les messages d'un utilisateur donné dans un seul document.

Alors peut-être que ce document même ne peut pas être d'une grande aide, peut-être que d'autres publications d'Eisenstein peuvent vous conduire dans la bonne direction.

— Junier
source

6

Un article récent intitulé " un modèle de sujet biterm pour le texte court " (WWW13) a fait quelques progrès sur ce sujet, et voici son code

— Xiaohui Yan
source

2

Je confirme que BiTerm LDA a plutôt bien fonctionné pour la modélisation de sujets et les classifications ultérieures (3-8 mots).

— Vladislavs Dovgalecs