Questions marquées «text-mining»

Fait référence à un sous-ensemble d'exploration de données concerné par l'extraction d'informations à partir de données sous forme de texte en reconnaissant des modèles. Le but de l'exploration de texte est souvent de classer un document donné dans l'une des nombreuses catégories de manière automatique, et d'améliorer ces performances de manière dynamique, ce qui en fait un exemple d'apprentissage automatique. Les filtres anti-spam utilisés pour les e-mails sont un exemple de ce type d'exploration de texte.


5
Classification de texte à grande échelle
Je cherche à faire une classification sur mes données texte. J'ai 300 classes200 documents de formation par classe (donc 60000 documents in total) et cela est susceptible d'entraîner des données dimensionnelles très élevées (nous pouvons rechercher plus de 1 million de dimensions ). Je voudrais effectuer les étapes suivantes dans …

2
Pourquoi le classificateur de régression d'arête fonctionne-t-il assez bien pour la classification de texte?
Au cours d'une expérience de classification de texte, j'ai trouvé un classificateur de crête générant des résultats qui dépassent constamment les tests parmi les classificateurs qui sont le plus souvent mentionnés et appliqués pour les tâches d'exploration de texte, tels que SVM, NB, kNN, etc. Cependant, je n'ai pas élaboré …

1
Je veux construire un indice de criminalité et un indice d'instabilité politique basés sur des reportages
J'ai ce projet parallèle où j'explore les sites d'information locaux de mon pays et je veux construire un indice de criminalité et un indice d'instabilité politique. J'ai déjà couvert la partie recherche d'informations du projet. Mon plan est de faire: Extraction de rubrique non supervisée. Détection des doublons proches. Classification …

1
Les paramètres d'entrée pour l'utilisation de l'allocation Dirichlet latente
Lors de l'utilisation de la modélisation de sujet (allocation Dirichlet latente), le nombre de sujets est un paramètre d'entrée que l'utilisateur doit spécifier. Il me semble que nous devrions également fournir une collection d'ensembles de sujets candidats que le processus Dirichlet doit échantillonner? Ma compréhension est-elle correcte? En pratique, comment …

1
Prédiction de sujet utilisant l'allocation de Dirichlet latente
J'ai utilisé LDA sur un corpus de documents et trouvé quelques sujets. La sortie de mon code est deux matrices contenant des probabilités; l'une des probabilités doc-topic et l'autre probabilités word-topic. Mais je ne sais pas comment utiliser ces résultats pour prédire le sujet d'un nouveau document. J'utilise l'échantillonnage Gibbs. …

2
Quand combinons-nous la réduction de dimensionnalité avec le clustering?
J'essaie d'effectuer un clustering au niveau du document. J'ai construit la matrice de fréquence terme-document et j'essaie de regrouper ces vecteurs de haute dimension en utilisant k-means. Au lieu de regrouper directement, ce que j'ai fait, j'ai d'abord appliqué la décomposition vectorielle singulière de LSA (Latent Semantic Analysis) pour obtenir …


4
Text Mining: comment regrouper des textes (par exemple des articles de presse) avec l'intelligence artificielle?
J'ai construit des réseaux de neurones (MLP (entièrement connecté), Elman (récurrent)) pour différentes tâches, comme jouer au Pong, classer les chiffres manuscrits et tout ça ... De plus, j'ai essayé de construire certains premiers réseaux de neurones convolutifs, par exemple pour classer des notes manuscrites à plusieurs chiffres, mais je …




2
Exemples d'exploration de texte avec R (package tm)
J'ai passé trois jours à essayer tmaprès avoir lu le projet de document d'un ami où il a exploré un corpus de texte avec UCINET, montrant des nuages ​​de texte, des graphiques de réseau à deux modes et une décomposition en valeur unique (avec des graphiques, en utilisant Stata). J'ai …
14 r  text-mining 


1
Extraction automatique des mots clés: utilisation des similitudes cosinus comme fonctionnalités
J'ai une matrice de termes de document , et maintenant je voudrais extraire des mots-clés pour chaque document avec une méthode d'apprentissage supervisé (SVM, Naive Bayes, ...). Dans ce modèle, j'utilise déjà Tf-idf, Pos tag, ...MMM Mais maintenant, je me pose des questions sur les voisins. J'ai une matrice avec …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.