Puisque vous utilisez gensim, vous devriez probablement utiliser son implémentation doc2vec. doc2vec est une extension de word2vec au niveau de la phrase, de la phrase et du document. C'est une extension assez simple, décrite ici
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim est agréable car il est intuitif, rapide et flexible. Ce qui est génial, c'est que vous pouvez récupérer les incorporations de mots pré-entraînées de la page officielle word2vec et la couche syn0 du modèle Doc2Vec de gensim est exposée afin que vous puissiez semer les incorporations de mots avec ces vecteurs de haute qualité!
GoogleNews-vectors-negative300.bin.gz (comme lié dans Google Code )
Je pense que gensim est certainement l'outil le plus simple (et jusqu'à présent pour moi, le meilleur) pour intégrer une phrase dans un espace vectoriel.
Il existe d'autres techniques phrase à vecteur que celle proposée dans l'article de Le & Mikolov ci-dessus. Socher et Manning de Stanford sont certainement deux des chercheurs les plus célèbres travaillant dans ce domaine. Leur travail a été basé sur le principe de la composition - la sémantique de la phrase vient de:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Ils ont proposé quelques modèles de ce type (de plus en plus complexes) pour savoir comment utiliser la compositionnalité pour créer des représentations au niveau des phrases.
2011 - déploiement de l'autoencodeur récursif (très comparativement simple. Commencez ici si vous êtes intéressé)
2012 - réseau de neurones matrice-vecteur
2013 - réseau de tenseurs neuronaux
2015 - Arbre LSTM
ses papiers sont tous disponibles sur socher.org. Certains de ces modèles sont disponibles, mais je recommanderais toujours le doc2vec de gensim. D'une part, l'URAE 2011 n'est pas particulièrement puissante. De plus, il est pré-entraîné avec des poids adaptés pour paraphraser les données d'actualité. Le code qu'il fournit ne vous permet pas de recycler le réseau. Vous ne pouvez pas non plus échanger différents vecteurs de mots, vous êtes donc coincé avec les incorporations pré-word2vec de 2011 de Turian. Ces vecteurs ne sont certainement pas au niveau de word2vec ou GloVe.
Je n'ai pas encore travaillé avec le Tree LSTM, mais cela semble très prometteur!
tl; dr Ouais, utilisez doc2vec de gensim. Mais d'autres méthodes existent!