Pourquoi le softmax hiérarchique est-il meilleur pour les mots peu fréquents, alors que l'échantillonnage négatif est meilleur pour les mots fréquents?

12

Je me demande pourquoi le softmax hiérarchique est meilleur pour les mots peu fréquents, alors que l'échantillonnage négatif est meilleur pour les mots fréquents, dans les modèles CBOW et skip-gram de word2vec. J'ai lu la réclamation sur https://code.google.com/p/word2vec/ .

— Franck Dernoncourt
source

10

Je ne suis pas un expert de word2vec, mais à la lecture de Rong, X. (2014). Apprentissage des paramètres de word2vec Expliqué et de ma propre expérience NN, je simplifierais le raisonnement à ceci:

Le softmax hiérarchique permet une amélioration de l'efficacité de l'entraînement puisque le vecteur de sortie est déterminé par une traversée arborescente des couches du réseau; un échantillon de formation donné n'a qu'à évaluer / mettre à jour les unités de réseau , pas . Cela augmente essentiellement les poids pour prendre en charge un vocabulaire important - un mot donné est lié à moins de neurones et vice-versa. $O(log(N))$ $O(N)$
L'échantillonnage négatif est un moyen d'échantillonner les données d'entraînement, semblable à la descente de gradient stochastique, mais la clé est que vous recherchez des exemples d'entraînement négatifs. Intuitivement, il s'entraîne sur la base d'échantillonner des endroits auxquels il aurait pu s'attendre à un mot, mais n'en a pas trouvé, ce qui est plus rapide que de former un corpus entier à chaque itération et est logique pour les mots courants.

Les deux méthodes ne semblent pas être exclusives, théoriquement, mais de toute façon cela semble être la raison pour laquelle elles seraient meilleures pour les mots fréquents et peu fréquents.

— Andrew Charneski
source

1

Ma compréhension est que cela est dû au codage Huffman utilisé lors de la construction de la hiérarchie des catégories.

Le softmax hiérarchique utilise un arbre de nœuds sigmoïdes au lieu d'un grand softmax, le codage Huffman garantit que la distribution des points de données appartenant à chaque côté de n'importe quel nœud sigmoïde est équilibrée. Par conséquent, cela permet d'éliminer la préférence pour les catégories fréquentes par rapport à l'utilisation d'un seul grand softmax et d'un échantillonnage négatif.

— dontloo
source

0

Le softmax hiérarchique construit un arbre sur tout le vocabulaire et les nœuds feuilles représentant des mots rares hériteront inévitablement des représentations vectorielles de leurs ancêtres dans l'arbre, qui peuvent être affectées par d'autres mots fréquents dans le corpus. Cela bénéficiera à la formation supplémentaire pour les nouveaux corpus.

L'échantillonnage négatif est développé sur la base d'une estimation contrastée du bruit et échantillonne au hasard les mots qui ne sont pas dans le contexte pour distinguer les données observées du bruit aléatoire généré artificiellement.

— Amey Yadav
source