D'un point de vue pratique ...
LDA commence par une saisie de mots qui prend en compte les mots qui apparaissent simultanément dans les documents, sans toutefois prêter attention au contexte immédiat des mots. Cela signifie que les mots peuvent apparaître n'importe où dans le document et dans n'importe quel ordre, ce qui supprime un certain niveau d'informations. En revanche, word2vec concerne le contexte dans lequel un mot est utilisé - mais peut-être pas un ordre exact.
Les "sujets" de LDA sont une construction mathématique et vous ne devez pas les confondre avec des sujets humains réels. Vous pouvez vous retrouver avec des sujets sans interprétation humaine - ils ressemblent davantage à des artefacts du processus qu'à des sujets réels - et vous pouvez vous retrouver avec des sujets à différents niveaux d'abstraction, y compris des sujets qui couvrent fondamentalement le même sujet humain. C'est un peu comme lire des feuilles de thé.
J'ai trouvé que LDA était utile pour explorer des données, mais pas vraiment pour fournir une solution, mais votre kilométrage peut varier.
Word2vec ne crée pas de sujets directement. Il projette les mots dans un espace de grande dimension basé sur un usage similaire. Il peut donc avoir ses propres surprises en termes de mots que vous pensez distincts - ou même opposés - qui peuvent être proches les uns des autres dans l'espace.
Vous pouvez utiliser l'un ou l'autre pour déterminer si les mots sont "similaires". Avec LDA: les mots ont-ils des poids similaires dans les mêmes sujets? Avec word2vec: sont-ils proches (dans une certaine mesure) dans l'espace d'intégration?
Vous pouvez utiliser l'un ou l'autre pour déterminer si les documents sont similaires. Avec LDA, vous recherchiez un mélange similaire de sujets et avec word2vec, vous feriez quelque chose de similaire à l’addition des vecteurs des mots du document. ("Document" peut être une phrase, un paragraphe, une page ou un document entier.) Doc2vec est une version modifiée de word2vec qui permet la comparaison directe de documents.
Alors que LDA élimine certaines informations contextuelles avec son approche de sac à mots, elle a des sujets (ou "sujets"), ce que word2vec n'a pas. Il est donc simple d'utiliser doc2vec pour dire «Montrez-moi des documents similaires à celui-ci», alors qu'avec LDA, il est simple de dire «Montrez-moi les documents dans lesquels le sujet A est au premier plan». (Encore une fois, sachant que le "sujet A" émerge d'un processus mathématique sur vos documents et vous déterminez ensuite le ou les sujets humains auxquels il correspond le plus.)