Le traitement du langage naturel est un ensemble de techniques issues de la linguistique, de l'intelligence artificielle, de l'apprentissage automatique et des statistiques qui visent à traiter et à comprendre les langues humaines.
Il existe des réseaux de neurones récurrents et des réseaux de neurones récursifs. Les deux sont généralement désignés par le même acronyme: RNN. Selon Wikipedia , NN récurrent est en réalité NN récursif, mais je ne comprends pas vraiment l'explication. De plus, je ne semble pas trouver ce qui est …
Je veux apprendre les réseaux de neurones. Je suis un linguiste informatisé. Je connais des méthodes d’apprentissage statistique et peut coder en Python. Je cherche à commencer avec ses concepts et à connaître un ou deux modèles populaires qui pourraient être utiles du point de vue de la linguistique computationnelle. …
J'essaie de comprendre ce qu'est la similitude entre Latent Dirichlet Allocation et word2vec pour calculer la similarité de mots. Si je comprends bien, LDA mappe les mots sur un vecteur de probabilités de sujets latents , tandis que word2vec les mappe sur un vecteur de nombres réels (liés à la …
Comment utiliser un mot incorporé pour mapper un document sur un vecteur de caractéristiques approprié pour une utilisation avec apprentissage supervisé? Un mot incorporant mappe chaque mot www à un vecteur v∈Rdv∈Rdv \in \mathbb{R}^d , où ddd est un nombre non trop grand (par exemple 500). Les mots les plus …
Après avoir formé les vecteurs de mots avec word2vec, vaut-il mieux les normaliser avant de les utiliser pour certaines applications en aval? C'est-à-dire quels sont les avantages / inconvénients de les normaliser?
Je comprends que les modèles de Markov cachés (HMM) sont des modèles génératifs et les modèles CRF sont des modèles discriminants. Je comprends également comment les CRF (Conditional Random Fields) sont conçus et utilisés. Ce que je ne comprends pas, c'est comment ils sont différents des HMM? J'ai lu que …
Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . J'utilise caret pour exécuter une forêt aléatoire validée de façon croisée …
Identiques sens, qu'il produira des résultats identiques pour une similitude entre le classement d' un vecteur u et un ensemble de vecteurs V . J'ai un modèle d'espace vectoriel qui a comme paramètres la mesure de distance (distance euclidienne, similitude cosinus) et la technique de normalisation (aucun, l1, l2). D'après …
Les modèles de sujet populaires comme LDA regroupent généralement les mots qui ont tendance à co-apparaître ensemble dans le même sujet (cluster). Quelle est la principale différence entre de tels modèles de sujet et d'autres approches simples de regroupement basées sur la cooccurrence comme PMI? (PMI signifie Pointwise Mutual Information, …
J'ai été impressionné par les résultats du document ICML 2014 " Représentations distribuées des peines et des documents " de Le et Mikolov. La technique qu'ils décrivent, appelée «vecteurs de paragraphe», apprend des représentations non supervisées de paragraphes / documents arbitrairement longs, basées sur une extension du modèle word2vec. L'article …
Je me demande pourquoi skip-gram est meilleur pour les mots peu fréquents que CBOW dans word2vec. J'ai lu la réclamation sur https://code.google.com/p/word2vec/ .
Dans l'état actuel des choses, cette question ne convient pas à notre format de questions / réponses. Nous nous attendons à ce que les réponses soient étayées par des faits, des références ou une expertise, mais cette question suscitera probablement un débat, des arguments, des sondages ou une discussion approfondie. …
D'après ce que j'ai vu, la formule de lissage (de second ordre) de Kneser-Ney est d'une manière ou d'une autre donnée comme P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} avec le facteur de normalisation λ(wn−1)λ(wn−1)\lambda(w_{n-1}) donné comme λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} …
Inspiré par cette question , je me demande si des travaux ont été effectués sur des modèles de sujet pour de grandes collections de textes extrêmement courts. Mon intuition est que Twitter devrait être une inspiration naturelle pour de tels modèles. Cependant, à partir d'une expérimentation limitée, il semble que …
Lors du traitement du langage naturel, on peut prendre un corpus et évaluer la probabilité que le mot suivant apparaisse dans une séquence de n. n est généralement choisi comme 2 ou 3 (bigrammes et trigrammes). Existe-t-il un point connu où le suivi des données pour la nième chaîne devient …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.