J'essaie de faire une analyse des sentiments. Afin de convertir les mots en vecteurs de mots, j'utilise le modèle word2vec. Supposons que j'ai toutes les phrases dans une liste nommée «phrases» et que je passe ces phrases à word2vec comme suit:
model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3)
Étant donné que je ne suis aucun des vecteurs de mots, j'ai deux doutes.
1- La définition du nombre d'entités sur 300 définit les entités d'un vecteur de mots. Mais que signifient ces caractéristiques? Si chaque mot de ce modèle est représenté par un tableau numpy 1x300, que signifient ces 300 caractéristiques pour ce mot?
2- Que fait l'échantillonnage à la baisse représenté par le paramètre «échantillon» dans le modèle ci-dessus en réalité?
Merci d'avance.