Questions marquées «classification»

La classification statistique est le problème de l'identification de la sous-population à laquelle appartiennent de nouvelles observations, où l'identité de la sous-population est inconnue, sur la base d'un ensemble d'apprentissage de données contenant des observations dont la sous-population est connue. Ces classifications montreront donc un comportement variable qui peut être étudié par des statistiques.

1
Avantages de l'échantillonnage stratifié par rapport à l'échantillonnage aléatoire pour générer des données de formation dans la classification
Je voudrais savoir s'il y a des avantages / certains à utiliser l'échantillonnage stratifié au lieu de l'échantillonnage aléatoire, lors de la division de l'ensemble de données d'origine en ensemble de formation et de test pour la classification. De plus, l'échantillonnage stratifié introduit-il plus de biais dans le classificateur que …

2
La forêt aléatoire est sur-adaptée?
J'expérimente avec des forêts aléatoires avec scikit-learn et j'obtiens d'excellents résultats de mon ensemble d'entraînement, mais des résultats relativement médiocres sur mon ensemble de test ... Voici le problème (inspiré du poker) que j'essaie de résoudre: étant donné les cartes fermées du joueur A, les cartes fermées du joueur B …

3
Apprentissage semi-supervisé, apprentissage actif et apprentissage profond pour la classification
Édition finale avec toutes les ressources mises à jour: Pour un projet, j'applique des algorithmes d'apprentissage automatique pour la classification. Défi: données étiquetées assez limitées et beaucoup plus de données non étiquetées. Buts: Appliquer la classification semi-supervisée Appliquer un processus d'étiquetage en quelque sorte semi-supervisé (appelé apprentissage actif) J'ai trouvé …



5
Classification de texte à grande échelle
Je cherche à faire une classification sur mes données texte. J'ai 300 classes200 documents de formation par classe (donc 60000 documents in total) et cela est susceptible d'entraîner des données dimensionnelles très élevées (nous pouvons rechercher plus de 1 million de dimensions ). Je voudrais effectuer les étapes suivantes dans …

10
Ensembles de données de réseaux sociaux
Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Je recherche des jeux de données de réseaux sociaux (twitter, friendfeed, facebook, lastfm, etc.) pour les tâches de classification, de préférence …

3
La construction d'un classificateur multiclasse est-elle meilleure que plusieurs classificateurs binaires?
J'ai besoin de classer les URL en catégories. Disons que j'ai 15 catégories que je prévois de mettre à zéro chaque URL. Un classificateur à 15 voies est-il meilleur? Où j'ai 15 étiquettes et génère des fonctionnalités pour chaque point de données. Ou construire 15 classificateurs binaires, par exemple: film …

2
Pourquoi le classificateur de régression d'arête fonctionne-t-il assez bien pour la classification de texte?
Au cours d'une expérience de classification de texte, j'ai trouvé un classificateur de crête générant des résultats qui dépassent constamment les tests parmi les classificateurs qui sont le plus souvent mentionnés et appliqués pour les tâches d'exploration de texte, tels que SVM, NB, kNN, etc. Cependant, je n'ai pas élaboré …

2
Test de la classification sur des données de déséquilibre suréchantillonnées
Je travaille sur des données gravement déséquilibrées. Dans la littérature, plusieurs méthodes sont utilisées pour rééquilibrer les données en utilisant un rééchantillonnage (sur ou sous-échantillonnage). Deux bonnes approches sont: SMOTE: TEchnique de suréchantillonnage des minorités synthétiques ( SMOTE ) ADASYN: Approche d'échantillonnage synthétique adaptative pour l'apprentissage déséquilibré ( ADASYN ) …




1
Je veux construire un indice de criminalité et un indice d'instabilité politique basés sur des reportages
J'ai ce projet parallèle où j'explore les sites d'information locaux de mon pays et je veux construire un indice de criminalité et un indice d'instabilité politique. J'ai déjà couvert la partie recherche d'informations du projet. Mon plan est de faire: Extraction de rubrique non supervisée. Détection des doublons proches. Classification …

3
Comparaison de deux résultats d'exactitude de classificateur pour la signification statistique avec le test t
Je veux comparer l'exactitude de deux classificateurs pour la signification statistique. Les deux classificateurs sont exécutés sur le même ensemble de données. Cela m'amène à croire que je devrais utiliser un test t à échantillon unique d'après ce que j'ai lu . Par exemple: Classifier 1: 51% accuracy Classifier 2: …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.