Questions marquées «word2vec»

Word2vec est un réseau neuronal qui représente les mots sous forme de vecteurs dans un espace de grande dimension.

5
LDA vs word2vec
J'essaie de comprendre ce qu'est la similitude entre Latent Dirichlet Allocation et word2vec pour calculer la similarité de mots. Si je comprends bien, LDA mappe les mots sur un vecteur de probabilités de sujets latents , tandis que word2vec les mappe sur un vecteur de nombres réels (liés à la …

3
Appliquer des mots incorporés à l'ensemble du document pour obtenir un vecteur de caractéristiques
Comment utiliser un mot incorporé pour mapper un document sur un vecteur de caractéristiques approprié pour une utilisation avec apprentissage supervisé? Un mot incorporant mappe chaque mot www à un vecteur v∈Rdv∈Rdv \in \mathbb{R}^d , où ddd est un nombre non trop grand (par exemple 500). Les mots les plus …


3



4
Interpréter la similitude cosinus négative
Ma question peut être stupide. Je m'excuse donc à l'avance. J'essayais d'utiliser le modèle GLOVE pré-formé par Stanford NLP group ( lien ). Cependant, j'ai remarqué que mes résultats de similitude montraient des chiffres négatifs. Cela m'a immédiatement incité à regarder le fichier de données mot-vecteur. Apparemment, les valeurs dans …


3
Pourquoi le softmax hiérarchique est-il meilleur pour les mots peu fréquents, alors que l'échantillonnage négatif est meilleur pour les mots fréquents?
Je me demande pourquoi le softmax hiérarchique est meilleur pour les mots peu fréquents, alors que l'échantillonnage négatif est meilleur pour les mots fréquents, dans les modèles CBOW et skip-gram de word2vec. J'ai lu la réclamation sur https://code.google.com/p/word2vec/ .


1
Algorithmes d'intégration de mots en termes de performances
J'essaie d'incorporer environ 60 millions de phrases dans un espace vectoriel , puis de calculer la similitude en cosinus entre elles. J'ai utilisé sklearn CountVectorizeravec une fonction de tokenizer construite sur mesure qui produit des unigrammes et des bigrammes. Il s'avère que pour obtenir des représentations significatives, je dois autoriser …




1
Dégradés pour skipgram word2vec
Je passe en revue les problèmes liés aux problèmes d'affectation écrits de la classe d'apprentissage profond de Stanford NLP http://cs224d.stanford.edu/assignment1/assignment1_soln J'essaie de comprendre la réponse pour 3a où ils recherchent la dérivée du vecteur pour le mot central. Supposons que l'on vous donne un vecteur de mot prédit correspondant au …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.