Je travaille sur un algorithme de formation des données pour Word2vec. Puisque nous avons besoin que les mots restent aussi originaux, nous ne les rendons pas en minuscules lors de la phase de prétraitement. Il y a donc des mots avec des variations différentes (par exemple "Terre" et "terre").
La seule façon dont je peux penser est de prendre la moyenne des vecteurs pour "Terre" et "terre" pour créer un seul vecteur pour représenter le mot. (Étant donné que les dimensions du vecteur d'entité sont similaires)
Est-ce une méthode "correcte"? Si ce n'est pas le cas, quelle pourrait être une bonne façon de gérer ce problème?
Remarque: Réduire tous les mots du prétraitement n'est pas une option pour l'instant.
Modifier: les informations indiquant si les cotes des entités sont vraiment linéaires seraient également utiles.
Edit 2: Combiner les deux réponses de patapouf_ai
et a yazhi
donné les meilleurs résultats. Comment sont-ils combinés? La moyenne pondérée a amélioré les résultats, mais le fait de mettre les fréquences des mots à travers une fonction sigmoïde mise à l'échelle a donné les meilleurs résultats, car l'utilisation des fréquences des mots de manière linéaire leur donne plus d'importance qu'elles n'en ont.