Questions marquées «word-embeddings»

L'incorporation de mots est le nom collectif d'un ensemble de techniques de modélisation du langage et d'apprentissage de fonctionnalités en PNL où les mots sont mappés à des vecteurs de nombres réels dans un espace de faible dimension, par rapport à la taille du vocabulaire.


2
Comment fonctionne la couche «Enrobage» de Keras?
Besoin de comprendre le fonctionnement de la couche 'Enrobage' dans la bibliothèque Keras. J'exécute le code suivant en Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) ce qui donne …

3
Appliquer des mots incorporés à l'ensemble du document pour obtenir un vecteur de caractéristiques
Comment utiliser un mot incorporé pour mapper un document sur un vecteur de caractéristiques approprié pour une utilisation avec apprentissage supervisé? Un mot incorporant mappe chaque mot www à un vecteur v∈Rdv∈Rdv \in \mathbb{R}^d , où ddd est un nombre non trop grand (par exemple 500). Les mots les plus …


3

1
Les performances de pointe rapportées de l'utilisation de vecteurs de paragraphe pour l'analyse des sentiments ont-elles été reproduites?
J'ai été impressionné par les résultats du document ICML 2014 " Représentations distribuées des peines et des documents " de Le et Mikolov. La technique qu'ils décrivent, appelée «vecteurs de paragraphe», apprend des représentations non supervisées de paragraphes / documents arbitrairement longs, basées sur une extension du modèle word2vec. L'article …




3
Pourquoi le softmax hiérarchique est-il meilleur pour les mots peu fréquents, alors que l'échantillonnage négatif est meilleur pour les mots fréquents?
Je me demande pourquoi le softmax hiérarchique est meilleur pour les mots peu fréquents, alors que l'échantillonnage négatif est meilleur pour les mots fréquents, dans les modèles CBOW et skip-gram de word2vec. J'ai lu la réclamation sur https://code.google.com/p/word2vec/ .


1
Algorithmes d'intégration de mots en termes de performances
J'essaie d'incorporer environ 60 millions de phrases dans un espace vectoriel , puis de calculer la similitude en cosinus entre elles. J'ai utilisé sklearn CountVectorizeravec une fonction de tokenizer construite sur mesure qui produit des unigrammes et des bigrammes. Il s'avère que pour obtenir des représentations significatives, je dois autoriser …


1
Quels sont les avantages et les inconvénients de l'application d'informations mutuelles ponctuelles sur une matrice de cooccurrence de mots avant la SVD?
Une façon de générer des incorporations de mots est la suivante ( miroir ): Obtenez un corpus, par exemple: "J'aime voler. J'aime la PNL. J'aime le deep learning." Construisez le mot matrice de cooccurrence à partir de lui: Effectuez SVD sur XXX et conservez les kkk premières colonnes de U. …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.