De manière empirique, j'ai trouvé que LSA était considérablement supérieur à LDA à chaque fois et sur tous les ensembles de données que j'ai essayés. J'ai parlé à d'autres personnes qui ont dit la même chose. Il a également été utilisé pour gagner un certain nombre de concours de SemEval pour mesurer la similarité sémantique entre documents, souvent en combinaison avec une mesure basée sur wordnet. Je ne dirais donc pas que cela passe de la mode ou est nettement inférieur à LDA, qui est meilleur pour la modélisation du sujet et non la similitude sémantique dans mon expérience, contrairement à ce que certains répondants ont déclaré.
Si vous utilisez gensim (une bibliothèque python), il contient LSA, LDA et word2vec, de sorte que vous pouvez facilement comparer 3. doc2vec est une bonne idée, mais ne s'adapte pas très bien et vous devrez probablement le mettre en œuvre tel que je suis. pas au courant de toute implémentation open source. Il ne s’adapte pas bien car pour chaque document, un nouveau modèle séparé doit être construit en utilisant SGD, un algorithme d’apprentissage lent. Mais cela vous donnera probablement les résultats les plus précis. LSA et LDA ne s’échelonnent pas non plus bien (Word2vec le fait cependant), les échelles LDA sont pires en général. Les implémentations de Gensim sont toutefois très rapides, car elles utilisent une SVD itérative.
Une autre remarque, si vous utilisez word2vec, vous devrez toujours déterminer un moyen de composer des vecteurs à partir de documents, car cela vous donne un vecteur différent par mot. Le moyen le plus simple consiste à normaliser chaque vecteur et à attribuer la moyenne à tous les vecteurs de mots du document ou à une moyenne pondérée par pondération idf de chaque mot. Donc, ce n'est pas aussi simple que 'use word2vec', vous devrez faire quelque chose de plus pour calculer la similarité des documents.
Personnellement, je choisirais LSA, vu que cela fonctionnait bien sur le plan empirique, et que la bibliothèque de gensim évolue très bien. Cependant, il n'y a pas de repas gratuit, essayez de préférence chaque méthode pour voir celle qui convient le mieux à vos données.