Pour une tâche de traitement du langage naturel (NLP), on utilise souvent des vecteurs word2vec comme incorporation pour les mots. Cependant, il peut y avoir de nombreux mots inconnus qui ne sont pas capturés par les vecteurs word2vec simplement parce que ces mots ne sont pas assez souvent vus dans les données d'apprentissage (de nombreuses implémentations utilisent un nombre minimum avant d'ajouter un mot au vocabulaire). Cela peut être particulièrement le cas avec du texte provenant par exemple de Twitter, où les mots sont souvent mal orthographiés.
Comment gérer de tels mots inconnus lors de la modélisation d'une tâche PNL telle que la prédiction de sentiments à l'aide d'un réseau à long terme (LSTM)? Je vois deux options:
- Ajout d'un jeton «mot inconnu» au dictionnaire word2vec.
- Supprimer ces mots inconnus de telle sorte que le LSTM ne sait même pas que le mot était dans la phrase.
Quelle est la meilleure façon de gérer ces mots?