Ma question peut être stupide. Je m'excuse donc à l'avance.
J'essayais d'utiliser le modèle GLOVE pré-formé par Stanford NLP group ( lien ). Cependant, j'ai remarqué que mes résultats de similitude montraient des chiffres négatifs.
Cela m'a immédiatement incité à regarder le fichier de données mot-vecteur. Apparemment, les valeurs dans les vecteurs de mots pouvaient être négatives. Cela explique pourquoi j'ai vu des similitudes de cosinus négatives.
Je suis habitué au concept de similitude en cosinus des vecteurs de fréquence, dont les valeurs sont limitées dans [0, 1]. Je sais pertinemment que le produit scalaire et la fonction cosinus peuvent être positifs ou négatifs, selon l'angle entre le vecteur. Mais j'ai vraiment du mal à comprendre et à interpréter cette similitude cosinus négative.
Par exemple, si j'ai une paire de mots donnant une similitude de -0,1, sont-ils moins similaires qu'une autre paire dont la similitude est de 0,05? Que diriez-vous de comparer la similitude de -0,9 à 0,8?
Ou devrais-je simplement regarder la valeur absolue de la différence d'angle minimale par rapport à ? Valeur absolue des scores?
Merci beaucoup.
An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.
La seule différence entre les deux est que dans la corrélation, les écarts (moments) - qui sont multipliés croisés - sont de la moyenne, tandis que dans le cosinus les écarts sont du 0 d'origine - c'est-à-dire qu'ils sont les valeurs telles qu'elles sont .