Je me demande pourquoi skip-gram est meilleur pour les mots peu fréquents que CBOW dans word2vec. J'ai lu la réclamation sur https://code.google.com/p/word2vec/ .
Je me demande pourquoi skip-gram est meilleur pour les mots peu fréquents que CBOW dans word2vec. J'ai lu la réclamation sur https://code.google.com/p/word2vec/ .
Réponses:
Dans CBOW, les vecteurs des mots de contexte sont moyennés avant de prédire le mot central. Dans skip-gram, il n'y a pas de moyenne des vecteurs d'intégration. Il semble que le modèle puisse apprendre de meilleures représentations pour les mots rares lorsque leurs vecteurs ne sont pas moyennés avec les autres mots de contexte en train de faire les prédictions.
Voici ma compréhension simpliste et assez naïve de la différence:
Comme nous le savons, CBOW apprend à prédire le mot en fonction du contexte. Ou maximisez la probabilité du mot cible en regardant le contexte. Et cela se trouve être un problème pour les mots rares. Par exemple, étant donné le contexte, le yesterday was really [...] day
modèle CBOW vous dira que le mot est probablement beautiful
ou nice
. Des mots comme delightful
attireront beaucoup moins l'attention sur le modèle, car il est conçu pour prédire le mot le plus probable. Les mots rares seront lissés sur de nombreux exemples avec des mots plus fréquents.
D'un autre côté, le skip-gram est conçu pour prédire le contexte. Étant donné le mot, delightful
il doit le comprendre et nous dire qu'il y a une probabilité énorme, le contexte est yesterday was really [...] day
ou tout autre contexte pertinent. Avec skip-gram, le mot delightful
n'essaiera pas de rivaliser avec le mot, beautiful
mais à la place, les delightful+context
paires seront traitées comme de nouvelles observations. Pour cette raison, skip-gram aura besoin de plus de données pour apprendre à comprendre même les mots rares.
Je viens de tomber sur un article qui montre le contraire: que CBOW est meilleur pour les mots peu fréquents que skip-gram https://arxiv.org/abs/1609.08293 . Je me demande quelles sont les sources de la réclamation déclarée sur https://code.google.com/p/word2vec/ .