Je voudrais comparer la différence entre le même mot mentionné dans différentes sources. C'est-à-dire, comment les auteurs diffèrent dans leur utilisation de mots mal définis, tels que «démocratie».
Un bref plan a été
- Prenez les livres mentionnant le terme "démocratie" en texte brut
- Dans chaque livre, remplacez
democracy
pardemocracy_%AuthorName%
- Former un
word2vec
modèle sur ces livres - Calculer la distance entre
democracy_AuthorA
,democracy_AuthorB
et d'autres mentions rebaptisées de "démocratie"
Ainsi, la «démocratie» de chaque auteur a son propre vecteur, qui est utilisé à des fins de comparaison.
Mais il semble que cela word2vec
nécessite beaucoup plus que plusieurs livres (chaque mot réétiqueté n'apparaît que dans un sous-ensemble de livres) pour former des vecteurs fiables. La page officielle recommande des ensembles de données comprenant des milliards de mots.
Je voulais juste demander quelle devrait être la taille du sous-ensemble des livres d'un auteur pour faire une telle inférence avec word2vec
ou des outils alternatifs, si disponibles?
window
paramètre définit combien de mots dans le contexte sont utilisés pour former le modèle pour votre mot w