Il y a un iter
paramètre dans l' gensim
implémentation de Word2Vec
classe gensim.models.word2vec.Word2Vec (phrases = None, size = 100, alpha = 0.025, window = 5, min_count = 5, max_vocab_size = None, sample = 0, seed = 1, workers = 1, min_alpha = 0.0001, sg = 1, hs = 1, négatif = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = None, sorted_vocab = 1)
qui précise le nombre d'époques, c'est-à-dire:
iter = nombre d'itérations (époques) sur le corpus.
Est-ce que quelqu'un sait si cela aide à améliorer le modèle par rapport au corpus?
Y a-t-il une raison pour laquelle le iter
est défini sur 1 par défaut? N'y a-t-il pas beaucoup d'effet à augmenter le non. d'époques?
Existe-t-il une évaluation scientifique / empirique de la manière de fixer le non. d'époques?
Contrairement à la tâche de classification / régression, la méthode de recherche de grille ne fonctionnerait pas vraiment puisque les vecteurs sont générés de manière non supervisée et la fonction objectif est simplement par softmax hiérarchique ou par échantillonnage négatif.
Existe-t-il un mécanisme d'arrêt précoce pour couper court au non. des époques une fois que les vecteurs convergent? Et l'objectif hiérarchique softmax ou négatif peut-il converger?