Les performances de pointe rapportées de l'utilisation de vecteurs de paragraphe pour l'analyse des sentiments ont-elles été reproduites?


20

J'ai été impressionné par les résultats du document ICML 2014 " Représentations distribuées des peines et des documents " de Le et Mikolov. La technique qu'ils décrivent, appelée «vecteurs de paragraphe», apprend des représentations non supervisées de paragraphes / documents arbitrairement longs, basées sur une extension du modèle word2vec. L'article présente des performances de pointe sur l'analyse des sentiments à l'aide de cette technique.

J'espérais évaluer cette technique sur d'autres problèmes de classification de texte, comme alternative à la représentation traditionnelle par sac de mots. Cependant, je suis tombé sur un article du deuxième auteur dans un fil du groupe Google word2vec qui m'a donné une pause:

Je me suis essayé à reproduire les résultats de Quoc pendant l'été; J'ai pu obtenir des taux d'erreur sur l'ensemble de données IMDB à environ 9,4% - 10% (selon la qualité de la normalisation du texte). Cependant, je n'ai pas pu me rapprocher de ce que Quoc a rapporté dans le journal (erreur de 7,4%, c'est une énorme différence) ... Bien sûr, nous avons également interrogé Quoc sur le code; il a promis de le publier mais jusqu'à présent, rien ne s'est produit. ... Je commence à penser que les résultats de Quoc ne sont en fait pas reproductibles.

Quelqu'un a-t-il réussi à reproduire ces résultats?


Cette situation a-t-elle encore changé? Je sais que Gensim a implémenté une version de doc2vec (vecteurs paragraphe / document), voir: radimrehurek.com/gensim/models/doc2vec.html mais aucune tentative de reproduire les résultats dans l'article cité ici.
Doctorambient

1
Oui, il y a eu des tentatives de reproduction des résultats papier à l'aide de gensim : voir le bloc-notes doc2vec IPython .
Radim

Réponses:


13

La note de bas de page sur http://arxiv.org/abs/1412.5335 (l'un des auteurs est Tomas Mikolov) dit

Dans nos expériences, pour faire correspondre les résultats de (Le & Mikolov, 2014), nous avons suivi la suggestion de Quoc Le d'utiliser un softmax hiérarchique au lieu d'un échantillonnage négatif. Cependant, cela produit le résultat de précision de 92,6% uniquement lorsque les données de formation et de test ne sont pas mélangées. Ainsi, nous considérons ce résultat comme invalide.


1
Je ne comprends pas pourquoi "pas mélangé" ==> invalide. N'y a-t-il pas de séparation bien définie entre le train et l'ensemble d'essai? Donc, ce qui est train / test dépend de la façon dont vous mélangez le jeu de données (original)? L'ordre de l'ensemble de test ne devrait pas avoir d'importance (il n'y a pas d'évaluation dynamique, non?). Et l'ordre de l'ensemble d'entraînement ne devrait pas non plus avoir beaucoup d'importance ...
capybaralet

@ user2429920 S'ils obtiennent des différences, alors clairement l'ordre importe d'une manière ou d'une autre.
JAB
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.