Statistiques et Big Data text-mining

2

Pourquoi le n-gramme est-il utilisé dans l'identification de la langue du texte au lieu des mots?

Dans deux bibliothèques d'identification de langue populaires, Compact Language Detector 2 pour C ++ et détecteur de langue pour java, les deux utilisaient des n-grammes (basés sur des caractères) pour extraire des fonctionnalités de texte. Pourquoi un sac de mots (un seul mot / dictionnaire) n'est-il pas utilisé, et quels …

12 machine-learning classification text-mining natural-language

7

Quels sont les packages d'exploration de texte pour R et existe-t-il d'autres programmes d'exploration de texte open source?

Pouvez-vous recommander un package d'exploration de texte dans R qui peut être utilisé contre de gros volumes de données? Deuxièmement, existe-t-il une interface graphique disponible pour l'un des packages d'exploration de texte dans R? Troisièmement, existe-t-il un autre programme d'exploration de texte open source qui est facile et intuitif à …

12 r text-mining

2

Sac de mots vs modèle d'espace vectoriel?

Quelle (s) est / sont la différence (s) entre ces modèles de représentation textuelle: sac de mots et modèle d'espace vectoriel?

12 machine-learning text-mining

5

De bons livres sur l'exploration de texte?

Salut, je voulais savoir s'il y avait de bons livres sur l'exploration de texte et la classification avec quelques études de cas?. Sinon, certains articles / revues accessibles au public feraient l'affaire. S'ils illustrent encore mieux leurs exemples avec R. Je ne cherche pas un manuel étape par étape mais …

11 references text-mining

1

Incrémental IDF (Inverse Document Frequency)

Dans une application d'exploration de texte, une approche simple consiste à utiliser l' heuristique pour créer des vecteurs sous forme de représentations compactes et clairsemées des documents. C'est très bien pour le réglage par lots, où l'ensemble du corpus est connu a priori, car l' i d f nécessite l'ensemble …

11 time-series text-mining

1

Comprendre l'utilisation des logarithmes dans le logarithme TF-IDF

Je lisais: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Mais je n'arrive pas à comprendre exactement pourquoi la formule a été construite telle qu'elle est. Ce que je comprends: iDF devrait à un certain niveau mesurer la fréquence à laquelle un terme S apparaît dans chacun des documents, sa valeur diminuant à mesure que le terme …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Concernant l'utilisation du modèle bigramme (N-gramme) pour créer un vecteur d'entités pour un document texte

Une approche traditionnelle de la construction d'entités pour l'exploration de texte est une approche par sac de mots, et peut être améliorée à l'aide de tf-idf pour configurer le vecteur d'entités caractérisant un document texte donné. À l'heure actuelle, j'essaie d'utiliser un modèle de langage bi-gram ou (N-gram) pour créer …

10 machine-learning data-mining text-mining natural-language language-models

1

Cette interprétation de la rareté est-elle exacte?

Selon la documentation de la removeSparseTermsfonction du tmpackage, voici ce que la rareté implique: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with …

10 r text-mining natural-language

1

Pourquoi en ajouter un en fréquence de document inverse?

Mon manuel répertorie l'idf comme oùl o g( 1 + Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) : nombre de documentsNNN : nombre de documents contenant le terme tntntn_tttt Wikipedia répertorie cette formule comme une version lissée du l o g réel ( N. Celui que je comprends: il varie delog(Nl o g( Nnt)log(Nnt)log(\frac{N}{n_t})à∞ce qui semble …

9 text-mining natural-language smoothing

2

Qu'est-ce que VectorSource et VCorpus dans le package 'tm' (Text Mining) dans R

Je ne sais pas exactement ce que VectorSource et VCorpus contiennent dans le paquet «tm». La documentation n'est pas claire à ce sujet, quelqu'un peut-il me faire comprendre en termes simples?

9 r text-mining

1

Utilisation d'outils d'exploration de texte / de langage naturel pour l'économétrie

Je ne sais pas si cette question est pleinement appropriée ici, sinon, veuillez la supprimer. Je suis un étudiant diplômé en économie. Pour un projet qui étudie les problèmes des assurances sociales, j'ai accès à un grand nombre de cas administratifs (> 200k) qui traitent des évaluations d'éligibilité. Ces rapports …

9 machine-learning data-mining econometrics text-mining natural-language

1

Comment comparer les événements observés aux événements attendus?

Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Comprendre et appliquer l'analyse des sentiments

Je venais juste de me voir confier un projet d'analyse des sentiments pour certaines collections de documents. Par Google, beaucoup de recherches liées au sentiment ont surgi. Mes questions sont: Quelles sont les principales méthodes / algorithmes pour l'analyse des sentiments dans le domaine de l'apprentissage automatique et de l'analyse …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

Comment effectuer plusieurs tests chi carré post-hoc sur une table 2 X 3?

Mon ensemble de données comprend la mortalité totale ou la survie d'un organisme sur trois types de sites: côtier, médian et extracôtier. Les nombres dans le tableau ci-dessous représentent le nombre de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Je voudrais savoir si …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

3

Comment classeriez-vous / extrayeriez-vous l'information des descriptions de travail?

J'ai un tas de descriptions de poste entrées par les utilisateurs. Il y a toutes sortes de fautes d'orthographe et de mauvaises données. c'est à dire: ... tulane univ hospital tulip tullett prebon ... weik investment weill cornell university medical center weis weiss waldee hohimer dds welded constrction l.p. welder …

8 classification categorical-data text-mining

Questions marquées «text-mining»