Les performances de pointe rapportées de l'utilisation de vecteurs de paragraphe pour l'analyse des sentiments ont-elles été reproduites?

J'ai été impressionné par les résultats du document ICML 2014 " Représentations distribuées des peines et des documents " de Le et Mikolov. La technique qu'ils décrivent, appelée «vecteurs de paragraphe», apprend des représentations non supervisées de paragraphes / documents arbitrairement longs, basées sur une extension du modèle word2vec. L'article présente des performances de pointe sur l'analyse des sentiments à l'aide de cette technique.

J'espérais évaluer cette technique sur d'autres problèmes de classification de texte, comme alternative à la représentation traditionnelle par sac de mots. Cependant, je suis tombé sur un article du deuxième auteur dans un fil du groupe Google word2vec qui m'a donné une pause:

Je me suis essayé à reproduire les résultats de Quoc pendant l'été; J'ai pu obtenir des taux d'erreur sur l'ensemble de données IMDB à environ 9,4% - 10% (selon la qualité de la normalisation du texte). Cependant, je n'ai pas pu me rapprocher de ce que Quoc a rapporté dans le journal (erreur de 7,4%, c'est une énorme différence) ... Bien sûr, nous avons également interrogé Quoc sur le code; il a promis de le publier mais jusqu'à présent, rien ne s'est produit. ... Je commence à penser que les résultats de Quoc ne sont en fait pas reproductibles.

Quelqu'un a-t-il réussi à reproduire ces résultats?

— bskaggs
source

Cette situation a-t-elle encore changé? Je sais que Gensim a implémenté une version de doc2vec (vecteurs paragraphe / document), voir: radimrehurek.com/gensim/models/doc2vec.html mais aucune tentative de reproduire les résultats dans l'article cité ici.

— Doctorambient

Oui, il y a eu des tentatives de reproduction des résultats papier à l'aide de gensim : voir le bloc-notes doc2vec IPython .

— Radim

La note de bas de page sur http://arxiv.org/abs/1412.5335 (l'un des auteurs est Tomas Mikolov) dit

Dans nos expériences, pour faire correspondre les résultats de (Le & Mikolov, 2014), nous avons suivi la suggestion de Quoc Le d'utiliser un softmax hiérarchique au lieu d'un échantillonnage négatif. Cependant, cela produit le résultat de précision de 92,6% uniquement lorsque les données de formation et de test ne sont pas mélangées. Ainsi, nous considérons ce résultat comme invalide.

— Mikhail Korobov
source

Je ne comprends pas pourquoi "pas mélangé" ==> invalide. N'y a-t-il pas de séparation bien définie entre le train et l'ensemble d'essai? Donc, ce qui est train / test dépend de la façon dont vous mélangez le jeu de données (original)? L'ordre de l'ensemble de test ne devrait pas avoir d'importance (il n'y a pas d'évaluation dynamique, non?). Et l'ordre de l'ensemble d'entraînement ne devrait pas non plus avoir beaucoup d'importance ...

— capybaralet

@ user2429920 S'ils obtiennent des différences, alors clairement l'ordre importe d'une manière ou d'une autre.

— JAB