Questions marquées «text-mining»

Fait référence à un sous-ensemble d'exploration de données concerné par l'extraction d'informations à partir de données sous forme de texte en reconnaissant des modèles. Le but de l'exploration de texte est souvent de classer un document donné dans l'une des nombreuses catégories de manière automatique, et d'améliorer ces performances de manière dynamique, ce qui en fait un exemple d'apprentissage automatique. Les filtres anti-spam utilisés pour les e-mails sont un exemple de ce type d'exploration de texte.

2
Pourquoi le n-gramme est-il utilisé dans l'identification de la langue du texte au lieu des mots?
Dans deux bibliothèques d'identification de langue populaires, Compact Language Detector 2 pour C ++ et détecteur de langue pour java, les deux utilisaient des n-grammes (basés sur des caractères) pour extraire des fonctionnalités de texte. Pourquoi un sac de mots (un seul mot / dictionnaire) n'est-il pas utilisé, et quels …

7
Quels sont les packages d'exploration de texte pour R et existe-t-il d'autres programmes d'exploration de texte open source?
Pouvez-vous recommander un package d'exploration de texte dans R qui peut être utilisé contre de gros volumes de données? Deuxièmement, existe-t-il une interface graphique disponible pour l'un des packages d'exploration de texte dans R? Troisièmement, existe-t-il un autre programme d'exploration de texte open source qui est facile et intuitif à …
12 r  text-mining 


5
De bons livres sur l'exploration de texte?
Salut, je voulais savoir s'il y avait de bons livres sur l'exploration de texte et la classification avec quelques études de cas?. Sinon, certains articles / revues accessibles au public feraient l'affaire. S'ils illustrent encore mieux leurs exemples avec R. Je ne cherche pas un manuel étape par étape mais …

1
Incrémental IDF (Inverse Document Frequency)
Dans une application d'exploration de texte, une approche simple consiste à utiliser l' heuristique pour créer des vecteurs sous forme de représentations compactes et clairsemées des documents. C'est très bien pour le réglage par lots, où l'ensemble du corpus est connu a priori, car l' i d f nécessite l'ensemble …

1
Comprendre l'utilisation des logarithmes dans le logarithme TF-IDF
Je lisais: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Mais je n'arrive pas à comprendre exactement pourquoi la formule a été construite telle qu'elle est. Ce que je comprends: iDF devrait à un certain niveau mesurer la fréquence à laquelle un terme S apparaît dans chacun des documents, sa valeur diminuant à mesure que le terme …

3
Concernant l'utilisation du modèle bigramme (N-gramme) pour créer un vecteur d'entités pour un document texte
Une approche traditionnelle de la construction d'entités pour l'exploration de texte est une approche par sac de mots, et peut être améliorée à l'aide de tf-idf pour configurer le vecteur d'entités caractérisant un document texte donné. À l'heure actuelle, j'essaie d'utiliser un modèle de langage bi-gram ou (N-gram) pour créer …

1
Cette interprétation de la rareté est-elle exacte?
Selon la documentation de la removeSparseTermsfonction du tmpackage, voici ce que la rareté implique: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with …



1
Utilisation d'outils d'exploration de texte / de langage naturel pour l'économétrie
Je ne sais pas si cette question est pleinement appropriée ici, sinon, veuillez la supprimer. Je suis un étudiant diplômé en économie. Pour un projet qui étudie les problèmes des assurances sociales, j'ai accès à un grand nombre de cas administratifs (> 200k) qui traitent des évaluations d'éligibilité. Ces rapports …

1
Comment comparer les événements observés aux événements attendus?
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


4
Comment effectuer plusieurs tests chi carré post-hoc sur une table 2 X 3?
Mon ensemble de données comprend la mortalité totale ou la survie d'un organisme sur trois types de sites: côtier, médian et extracôtier. Les nombres dans le tableau ci-dessous représentent le nombre de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Je voudrais savoir si …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.