Le traitement du langage naturel est un ensemble de techniques issues de la linguistique, de l'intelligence artificielle, de l'apprentissage automatique et des statistiques qui visent à traiter et à comprendre les langues humaines.
Je ne sais pas si c'est le bon site de pile, mais voilà. Comment fonctionne la méthode .similiarity? Wow spaCy est super! Son modèle tfidf pourrait être plus simple, mais w2v avec une seule ligne de code?! Dans son didacticiel en 10 lignes sur spaCy andrazhribernik nous montre la méthode …
Je me demande pourquoi le softmax hiérarchique est meilleur pour les mots peu fréquents, alors que l'échantillonnage négatif est meilleur pour les mots fréquents, dans les modèles CBOW et skip-gram de word2vec. J'ai lu la réclamation sur https://code.google.com/p/word2vec/ .
Disons que j'utilise un RNN / LSTM pour faire une analyse de sentiment, qui est une approche à plusieurs (voir ce blog ). Le réseau est formé à travers une rétropropagation tronquée dans le temps (BPTT), où le réseau est déroulé pour seulement 30 dernières étapes comme d'habitude. Dans mon …
Dans deux bibliothèques d'identification de langue populaires, Compact Language Detector 2 pour C ++ et détecteur de langue pour java, les deux utilisaient des n-grammes (basés sur des caractères) pour extraire des fonctionnalités de texte. Pourquoi un sac de mots (un seul mot / dictionnaire) n'est-il pas utilisé, et quels …
La description: Soit le domaine problématique la classification de documents où il existe un ensemble de vecteurs de caractéristiques, chacun appartenant à 1 ou plusieurs classes. Par exemple, un document doc_1peut appartenir aux catégories Sportset English. Question: En utilisant le réseau de neurones pour la classification, quelle serait l'étiquette pour …
J'ai des problèmes pour comprendre le modèle skip-gram de l'algorithme Word2Vec. Dans un sac de mots continu, il est facile de voir comment les mots de contexte peuvent "s'adapter" dans le réseau neuronal, car vous les basez en moyenne après avoir multiplié chacune des représentations de codage à chaud avec …
J'essaie d'incorporer environ 60 millions de phrases dans un espace vectoriel , puis de calculer la similitude en cosinus entre elles. J'ai utilisé sklearn CountVectorizeravec une fonction de tokenizer construite sur mesure qui produit des unigrammes et des bigrammes. Il s'avère que pour obtenir des représentations significatives, je dois autoriser …
J'ai trouvé un tutoriel très utile concernant l' algorithme EM . L'exemple et l'image du tutoriel sont tout simplement géniaux. Question connexe sur le calcul des probabilités comment fonctionne la maximisation des attentes? J'ai une autre question concernant la façon de connecter la théorie décrite dans le tutoriel à l'exemple. …
Une façon de générer des incorporations de mots est la suivante ( miroir ): Obtenez un corpus, par exemple: "J'aime voler. J'aime la PNL. J'aime le deep learning." Construisez le mot matrice de cooccurrence à partir de lui: Effectuez SVD sur XXX et conservez les kkk premières colonnes de U. …
J'ai du mal à comprendre cette phrase: La première architecture proposée est similaire à la NNLM à action directe, où la couche cachée non linéaire est supprimée et la couche de projection est partagée pour tous les mots (pas seulement la matrice de projection); ainsi, tous les mots sont projetés …
Pour une tâche de traitement du langage naturel (NLP), on utilise souvent des vecteurs word2vec comme incorporation pour les mots. Cependant, il peut y avoir de nombreux mots inconnus qui ne sont pas capturés par les vecteurs word2vec simplement parce que ces mots ne sont pas assez souvent vus dans …
Comment puis-je quantifier la quantité de dispersion dans un vecteur de décompte de mots? Je recherche une statistique qui sera élevée pour le document A, car elle contient de nombreux mots différents qui se produisent rarement, et faible pour le document B, car elle contient un mot (ou quelques mots) …
Je lisais: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Mais je n'arrive pas à comprendre exactement pourquoi la formule a été construite telle qu'elle est. Ce que je comprends: iDF devrait à un certain niveau mesurer la fréquence à laquelle un terme S apparaît dans chacun des documents, sa valeur diminuant à mesure que le terme …
Une approche traditionnelle de la construction d'entités pour l'exploration de texte est une approche par sac de mots, et peut être améliorée à l'aide de tf-idf pour configurer le vecteur d'entités caractérisant un document texte donné. À l'heure actuelle, j'essaie d'utiliser un modèle de langage bi-gram ou (N-gram) pour créer …
J'essaie de regrouper, par exemple, des chaînes de programmation avec d'autres chaînes de programmation, des chaînes de physique avec d'autres chaînes de physique, etc., pour un large éventail de sujets. Malgré l'aspect linguistique théorique flagrant du problème, je cherche à le faire en utilisant la programmation / le logiciel. Le …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.