Questions marquées «text-mining»

Fait référence à un sous-ensemble d'exploration de données concerné par l'extraction d'informations à partir de données sous forme de texte en reconnaissant des modèles. Le but de l'exploration de texte est souvent de classer un document donné dans l'une des nombreuses catégories de manière automatique, et d'améliorer ces performances de manière dynamique, ce qui en fait un exemple d'apprentissage automatique. Les filtres anti-spam utilisés pour les e-mails sont un exemple de ce type d'exploration de texte.

3
Un exemple: régression LASSO utilisant glmnet pour les résultats binaires
Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Comment fonctionne la couche «Enrobage» de Keras?
Besoin de comprendre le fonctionnement de la couche 'Enrobage' dans la bibliothèque Keras. J'exécute le code suivant en Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) ce qui donne …

6
Comment faire correspondre presque deux vecteurs de chaînes (en R)?
Je ne suis pas sûr de la façon dont cela devrait être appelé, alors corrigez-moi si vous connaissez un meilleur terme. J'ai deux listes. L'un des 55 éléments (par exemple: un vecteur de chaînes), l'autre de 92. Les noms des éléments sont similaires mais non identiques. Je souhaite trouver les …
36 r  text-mining 

6
Classification statistique du texte
Je suis un programmeur sans connaissances statistiques et je suis actuellement en train d’examiner différentes méthodes de classification pour un grand nombre de documents que je souhaite classer en catégories prédéfinies. J'ai lu sur kNN, SVM et NN. Cependant, j'ai du mal à démarrer. Quelles ressources recommandez-vous? Je connais assez …





7
Dans Naive Bayes, pourquoi s'embêter avec le lissage de Laplace alors que nous avons des mots inconnus dans le test?
Je lisais aujourd'hui la classification Naive Bayes. J'ai lu, sous le titre d' estimation des paramètres avec l'ajout de 1 lissage : Soit référence à une classe (telle que positive ou négative), et référence à un jeton ou à un mot.cccwww L'estimateur du maximum de vraisemblance pour estP( w | …



2
Sac de mots pour la classification de texte: pourquoi ne pas simplement utiliser des fréquences de mots au lieu de TFIDF?
Une approche courante de la classification des textes consiste à former un classificateur à partir d'un «sac de mots». L'utilisateur prend le texte à classer et compte les fréquences des mots dans chaque objet, suivi d'une sorte de recadrage pour conserver la matrice résultante d'une taille gérable. Souvent, je vois …

1
Les performances de pointe rapportées de l'utilisation de vecteurs de paragraphe pour l'analyse des sentiments ont-elles été reproduites?
J'ai été impressionné par les résultats du document ICML 2014 " Représentations distribuées des peines et des documents " de Le et Mikolov. La technique qu'ils décrivent, appelée «vecteurs de paragraphe», apprend des représentations non supervisées de paragraphes / documents arbitrairement longs, basées sur une extension du modèle word2vec. L'article …

3
Apprentissage semi-supervisé, apprentissage actif et apprentissage profond pour la classification
Édition finale avec toutes les ressources mises à jour: Pour un projet, j'applique des algorithmes d'apprentissage automatique pour la classification. Défi: données étiquetées assez limitées et beaucoup plus de données non étiquetées. Buts: Appliquer la classification semi-supervisée Appliquer un processus d'étiquetage en quelque sorte semi-supervisé (appelé apprentissage actif) J'ai trouvé …

2
Pourquoi le traitement du langage naturel ne relève-t-il pas du domaine de l'apprentissage automatique? [fermé]
Dans l'état actuel des choses, cette question ne convient pas à notre format de questions / réponses. Nous nous attendons à ce que les réponses soient étayées par des faits, des références ou une expertise, mais cette question suscitera probablement un débat, des arguments, des sondages ou une discussion approfondie. …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.