Questions marquées «natural-language»

Le traitement du langage naturel est un ensemble de techniques issues de la linguistique, de l'intelligence artificielle, de l'apprentissage automatique et des statistiques qui visent à traiter et à comprendre les langues humaines.


3
Pourquoi le softmax hiérarchique est-il meilleur pour les mots peu fréquents, alors que l'échantillonnage négatif est meilleur pour les mots fréquents?
Je me demande pourquoi le softmax hiérarchique est meilleur pour les mots peu fréquents, alors que l'échantillonnage négatif est meilleur pour les mots fréquents, dans les modèles CBOW et skip-gram de word2vec. J'ai lu la réclamation sur https://code.google.com/p/word2vec/ .


2
Pourquoi le n-gramme est-il utilisé dans l'identification de la langue du texte au lieu des mots?
Dans deux bibliothèques d'identification de langue populaires, Compact Language Detector 2 pour C ++ et détecteur de langue pour java, les deux utilisaient des n-grammes (basés sur des caractères) pour extraire des fonctionnalités de texte. Pourquoi un sac de mots (un seul mot / dictionnaire) n'est-il pas utilisé, et quels …

2
Comment appliquer des réseaux de neurones sur des problèmes de classification multi-labels?
La description: Soit le domaine problématique la classification de documents où il existe un ensemble de vecteurs de caractéristiques, chacun appartenant à 1 ou plusieurs classes. Par exemple, un document doc_1peut appartenir aux catégories Sportset English. Question: En utilisant le réseau de neurones pour la classification, quelle serait l'étiquette pour …


1
Algorithmes d'intégration de mots en termes de performances
J'essaie d'incorporer environ 60 millions de phrases dans un espace vectoriel , puis de calculer la similitude en cosinus entre elles. J'ai utilisé sklearn CountVectorizeravec une fonction de tokenizer construite sur mesure qui produit des unigrammes et des bigrammes. Il s'avère que pour obtenir des représentations significatives, je dois autoriser …


1
Quels sont les avantages et les inconvénients de l'application d'informations mutuelles ponctuelles sur une matrice de cooccurrence de mots avant la SVD?
Une façon de générer des incorporations de mots est la suivante ( miroir ): Obtenez un corpus, par exemple: "J'aime voler. J'aime la PNL. J'aime le deep learning." Construisez le mot matrice de cooccurrence à partir de lui: Effectuez SVD sur XXX et conservez les kkk premières colonnes de U. …




1
Comprendre l'utilisation des logarithmes dans le logarithme TF-IDF
Je lisais: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Mais je n'arrive pas à comprendre exactement pourquoi la formule a été construite telle qu'elle est. Ce que je comprends: iDF devrait à un certain niveau mesurer la fréquence à laquelle un terme S apparaît dans chacun des documents, sa valeur diminuant à mesure que le terme …

3
Concernant l'utilisation du modèle bigramme (N-gramme) pour créer un vecteur d'entités pour un document texte
Une approche traditionnelle de la construction d'entités pour l'exploration de texte est une approche par sac de mots, et peut être améliorée à l'aide de tf-idf pour configurer le vecteur d'entités caractérisant un document texte donné. À l'heure actuelle, j'essaie d'utiliser un modèle de langage bi-gram ou (N-gram) pour créer …

2
Comment regrouper des chaînes par thèmes communs?
J'essaie de regrouper, par exemple, des chaînes de programmation avec d'autres chaînes de programmation, des chaînes de physique avec d'autres chaînes de physique, etc., pour un large éventail de sujets. Malgré l'aspect linguistique théorique flagrant du problème, je cherche à le faire en utilisant la programmation / le logiciel. Le …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.