Je me demande pourquoi le softmax hiérarchique est meilleur pour les mots peu fréquents, alors que l'échantillonnage négatif est meilleur pour les mots fréquents, dans les modèles CBOW et skip-gram de word2vec. J'ai lu la réclamation sur https://code.google.com/p/word2vec/ .