Le traitement du langage naturel est un ensemble de techniques issues de la linguistique, de l'intelligence artificielle, de l'apprentissage automatique et des statistiques qui visent à traiter et à comprendre les langues humaines.
Essayer de comprendre la relation entre l'entropie croisée et la perplexité. En général pour un modèle M , Perplexité (M) = 2 ^ entropie (M) . Cette relation est-elle valable pour tous les n-grammes différents, c'est-à-dire unigramme, bigramme, etc.?
Selon la documentation de la removeSparseTermsfonction du tmpackage, voici ce que la rareté implique: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with …
Exemples: J'ai une phrase dans la description de poste: "Java senior engineer in UK". Je veux utiliser un modèle d'apprentissage profond pour le prédire en 2 catégories: English et IT jobs. Si j'utilise un modèle de classification traditionnel, il ne peut prédire qu'une seule étiquette avec softmaxfonction à la dernière …
Mon manuel répertorie l'idf comme oùl o g( 1 + Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) : nombre de documentsNNN : nombre de documents contenant le terme tntntn_tttt Wikipedia répertorie cette formule comme une version lissée du l o g réel ( N. Celui que je comprends: il varie delog(Nl o g( Nnt)log(Nnt)log(\frac{N}{n_t})à∞ce qui semble …
Ma question porte généralement sur la décomposition en valeurs singulières (SVD), et en particulier sur l'indexation sémantique latente (LSI). Dis, j'ai qui contient des fréquences de 5 mots pour 7 documents.Aword×documentAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') J'obtenir la matrice factorisation …
Je ne sais pas si cette question est pleinement appropriée ici, sinon, veuillez la supprimer. Je suis un étudiant diplômé en économie. Pour un projet qui étudie les problèmes des assurances sociales, j'ai accès à un grand nombre de cas administratifs (> 200k) qui traitent des évaluations d'éligibilité. Ces rapports …
J'ai d'abord demandé cela sur le débordement de la pile et j'ai été renvoyé à ce site, alors voici: J'implémente des méthodes non supervisées de synthèse de documents basés sur la sélection / extraction de contenu et je suis confus quant à ce que mon manuel appelle le «rapport de …
Je lis cet article: traducteur skype où ils utilisent des CD-DNN-HMM (réseaux neuronaux profonds dépendants du contexte avec des modèles de Markov cachés). Je peux comprendre l'idée du projet et l'architecture qu'ils ont conçue mais je ne comprends pas ce que sont les senones . Je cherchais une définition mais …
Dans les modèles CBOW et skip-gram de word2vec, comment le choix des vecteurs de mots de (matrice de mots d'entrée) par rapport au choix des vecteurs de mots de (matrice de mots de sortie) affecte-t-il la qualité des vecteurs de mots résultants?WWWW′W′W' CBOW: Skip-gram:
Je veux former un réseau neuronal avec une séquence de caractères comme vecteur d'entrée. Les exemples d'apprentissage ont une longueur différente et pour cette raison, je ne sais pas comment les représenter. Disons que j'ai deux exemples de séquences, voici des noms: john doe maurice delanoe Le premier exemple est …
Je veux effectuer une analyse de sentiment sur du texte, j'ai parcouru plusieurs articles, certains d'entre eux utilisent "Naive Bayes" et d'autres sont "Recurrent Neural Network (LSTM)" , d'autre part j'ai vu une bibliothèque python pour l'analyse de sentiment qui est nltk. Il utilise "Naive Bayes". Quelqu'un peut-il expliquer quelle …
Je calcule des probabilités conditionnelles et des intervalles de confiance à 95% associés. Pour bon nombre de mes cas, j'ai un décompte simple des xsuccès des nessais (à partir d'un tableau de contingence), donc je peux utiliser un intervalle de confiance binomial, tel que celui fourni par binom.confint(x, n, method='exact')dans …
Dans de nombreuses applications de traitement du langage naturel telles que la correction d'orthographe, la traduction automatique et la reconnaissance vocale, nous utilisons des modèles de langage. Les modèles de langage sont généralement créés en comptant la fréquence à laquelle les séquences de mots (n-grammes) se produisent dans un grand …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.