Word2Vec et Doc2Vec sont-ils à la fois une représentation distributionnelle ou une représentation distribuée?

10

J'ai lu que la représentation distributionnelle est basée sur l'hypothèse distributionnelle que les mots apparaissant dans un contexte similaire ont généralement des significations similaires.

Word2Vec et Doc2Vec sont tous deux modélisés selon cette hypothèse. Mais, dans le document d'origine, même ils sont intitulés comme Distributed representation of words and phraseset Distributed representation of sentences and documents. Donc, ces algorithmes sont-ils basés sur une représentation distributionnelle ou une représentation distribuée.

Que diriez-vous d'autres modèles tels que LDA et LSA.

— yazhi
source

5

En effet, Word2Vec / Doc2Vec est basé sur l' distributional hypothesisendroit où le contexte de chaque mot est ses mots voisins. De même, LSA prend le document entier comme contexte. Les deux techniques résolvent le word embeddingproblème - incorporer des mots dans un espace vectoriel continu tout en gardant les mots sémantiquement proches les uns des autres.

D'un autre côté, LDA n'est pas fait pour résoudre le même problème. Ils traitent d'un problème différent appelé topic modeling, qui consiste à trouver des sujets latents dans un ensemble de documents.

— Tu N.
source

J'ai reçu une réponse de groupes Google indiquant que, à la fois distribué et distributionnel dans différentes perspectives. Distributionnelle en termes d'hypothèse utilisée et distribuée en termes de caractéristiques distribuées dans l'espace vectoriel.

— yazhi

oui, la représentation est distribuée dans le sens où un vecteur de mot capture plusieurs concepts, chaque concept est lui-même un vecteur. Par exemple: peut capturer deux concepts en genre et , capture en genre et . C'est pourquoi

v_{k i n g}

$v_{king}$ maleroyal

v_{q u e e n}

$v_{queen}$ femaleroyal

v_{k i n g} - v_{q u e e n} \sim v_{m a n} - v_{w o m a n}

$v_{king} - v_{queen} \sim v_{man} - v_{woman}$

— Tu N.

2

Turian, Joseph, Lev Ratinov et Yoshua Bengio. " Représentations de mots: une méthode simple et générale pour l'apprentissage semi-supervisé ." Actes de la 48e réunion annuelle de l'association pour la linguistique informatique. Association for Computational Linguistics, 2010. définir les représentations distributionnelles et les représentations distribuées comme suit:

$F$ $W×C$ $W$ $F_w$ $w$ $F_c$ $F$ $F_w$ $W$ $F_w$ $F$ $d << C$ $F_w$ $w$ $d$ $g$ $F$

Une représentation distribuée est dense, de faible dimension et de valeur réelle. Les représentations de mots distribués sont appelées incorporations de mots. Chaque dimension de l'incorporation représente une caractéristique latente du mot, capturant, espérons-le, des propriétés syntaxiques et sémantiques utiles. Une représentation distribuée est compacte, en ce sens qu'elle peut représenter un nombre exponentiel de clusters dans le nombre de dimensions.

FYI: Quelle est la différence entre les vecteurs de mots, les représentations de mots et les incorporations de vecteurs?

— Franck Dernoncourt
source

2

La même confusion subsiste également dans la réponse. Il a des propriétés des deux représentations. Voyons ce qu'il a en commun. Distributional: Il a une matrice de taille WxC puis sa taille réduite à Wxd, où d est la taille du vecteur d'intégration. Il utilise des tailles de fenêtre pour déterminer le contexte. Distributed: Vecteurs denses de faible dimension. Il préserve les caractéristiques latentes (propriétés sémantiques) dans ces dimensions.

— yazhi

2

La réponse d'Andrey Kutuzov via google groups était satisfaisante

Je dirais que les algorithmes word2vec sont basés sur les deux.

Quand les gens disent distributional representation, ils signifient généralement l'aspect linguistique: le sens est le contexte, connaissez le mot par sa société et d'autres citations célèbres.

Mais quand les gens disent distributed representation, cela n'a généralement rien à voir avec la linguistique. Il s'agit davantage de l'aspect informatique. Si je comprends bien Mikolov et d'autres, le mot distributeddans leurs articles signifie que chaque composant unique d'une représentation vectorielle n'a pas de sens propre. Les entités interprétables (par exemple, les contextes de mots dans le cas de word2vec) sont masquées et distributedparmi les composants vectoriels non interprétables: chaque composant est responsable de plusieurs entités interprétables, et chaque entité interprétable est liée à plusieurs composants.

Ainsi, word2vec (et doc2vec) utilise techniquement des représentations distribuées, comme moyen de représenter la sémantique lexicale. Et en même temps, il est conceptuellement basé sur une hypothèse de distribution: cela ne fonctionne que parce que l'hypothèse de distribution est vraie (les significations des mots sont en corrélation avec leurs contextes typiques).

Mais bien sûr, souvent les termes distributedet distributionalsont utilisés de manière interchangeable, ce qui augmente les malentendus :)

— yazhi
source