Inspiré par cette question , je me demande si des travaux ont été effectués sur des modèles de sujet pour de grandes collections de textes extrêmement courts. Mon intuition est que Twitter devrait être une inspiration naturelle pour de tels modèles. Cependant, à partir d'une expérimentation limitée, il semble que les modèles de sujet standard (LDA, etc.) fonctionnent assez mal sur ce type de données.
Quelqu'un connaît-il du travail qui a été fait dans ce domaine? Cet article parle de l'application de LDA à Twitter, mais je suis vraiment intéressé de savoir s'il existe d'autres algorithmes qui fonctionnent mieux dans le contexte des documents courts.