Questions marquées «text-mining»

Fait référence à un sous-ensemble d'exploration de données concerné par l'extraction d'informations à partir de données sous forme de texte en reconnaissant des modèles. Le but de l'exploration de texte est souvent de classer un document donné dans l'une des nombreuses catégories de manière automatique, et d'améliorer ces performances de manière dynamique, ce qui en fait un exemple d'apprentissage automatique. Les filtres anti-spam utilisés pour les e-mails sont un exemple de ce type d'exploration de texte.


1
De combien de données d'entraînement Word2vec a-t-il besoin?
Je voudrais comparer la différence entre le même mot mentionné dans différentes sources. C'est-à-dire, comment les auteurs diffèrent dans leur utilisation de mots mal définis, tels que «démocratie». Un bref plan a été Prenez les livres mentionnant le terme "démocratie" en texte brut Dans chaque livre, remplacez democracypardemocracy_%AuthorName% Former un …

3

2
Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
quelles techniques machine / deep learning / nlp sont utilisées pour classer un mot donné comme nom, numéro de mobile, adresse, email, état, comté, ville, etc.
J'essaie de générer un modèle intelligent qui peut analyser un ensemble de mots ou de chaînes et les classer en tant que noms, numéros mobiles, adresses, villes, États, pays et autres entités à l'aide de l'apprentissage automatique ou de l'apprentissage profond. J'avais cherché des approches, mais malheureusement je n'ai trouvé …

4
Suggérer des ensembles de données de formation sur le classificateur de texte
Quels jeux de données disponibles gratuitement puis-je utiliser pour former un classificateur de texte? Nous essayons d'améliorer l'engagement de nos utilisateurs en lui recommandant le contenu le plus connexe, alors nous avons pensé que si nous classions notre contenu en fonction d'un sac de mots prédéfini, nous pouvons lui recommander …

5
Regroupement avec similitude cosinus
J'ai un grand ensemble de données et une similitude cosinus entre eux. Je voudrais les regrouper en utilisant la similitude cosinus qui assemble des objets similaires sans avoir à spécifier au préalable le nombre de clusters que j'attends. J'ai lu la documentation sklearn de DBSCAN et Affinity Propagation, où les …

3
Comment évaluer le clustering de texte?
Quelles mesures peuvent être utilisées pour évaluer les modèles de clustering de texte? J'ai utilisé tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ hierarchical clustering (metric is cosine similarity). Comment décider quel modèle est le meilleur?

4
Classification des e-mails dans R
Je travaille sur un projet dans R où j'ai environ 1200 e-mails d'une entreprise, dont la plupart sont étiquetés classe11_{1} ou classe22_{2}, qui sont les types de demandes. Environ 1000 e-mails sont étiquetés classe11_{1}et 200 sont étiquetés classe22_{2}Mon objectif est d'utiliser l'apprentissage supervisé pour construire un modèle qui classera les …

4
Comment apprendre la détection des spams?
Je veux savoir comment fonctionne un détecteur de courrier indésirable. Je n'essaie pas de créer un produit commercial, ce sera un exercice d'apprentissage sérieux pour moi. Par conséquent, je recherche des ressources, telles que des projets existants, du code source, des articles, des articles, etc. que je peux suivre. Je …



1
Erreur R lors de l'utilisation du package tm (text-mining)
J'essaie d'utiliser le paquet tm pour convertir un vecteur de chaînes de texte en élément corpus. Mon code ressemble à ceci Corpus(d1$Yes) où d1$Yesest un facteur avec 124 niveaux, chacun contenant une chaîne de texte. Par exemple, d1$Yes[246] = "So we can get the boat out!" Je reçois l'erreur suivante: …
8 r  text-mining 
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.