Statistiques et Big Data classification

1

Avantages de l'échantillonnage stratifié par rapport à l'échantillonnage aléatoire pour générer des données de formation dans la classification

Je voudrais savoir s'il y a des avantages / certains à utiliser l'échantillonnage stratifié au lieu de l'échantillonnage aléatoire, lors de la division de l'ensemble de données d'origine en ensemble de formation et de test pour la classification. De plus, l'échantillonnage stratifié introduit-il plus de biais dans le classificateur que …

20 classification cross-validation random-forest train stratification

2

La forêt aléatoire est sur-adaptée?

J'expérimente avec des forêts aléatoires avec scikit-learn et j'obtiens d'excellents résultats de mon ensemble d'entraînement, mais des résultats relativement médiocres sur mon ensemble de test ... Voici le problème (inspiré du poker) que j'essaie de résoudre: étant donné les cartes fermées du joueur A, les cartes fermées du joueur B …

19 classification random-forest scikit-learn

3

Apprentissage semi-supervisé, apprentissage actif et apprentissage profond pour la classification

Édition finale avec toutes les ressources mises à jour: Pour un projet, j'applique des algorithmes d'apprentissage automatique pour la classification. Défi: données étiquetées assez limitées et beaucoup plus de données non étiquetées. Buts: Appliquer la classification semi-supervisée Appliquer un processus d'étiquetage en quelque sorte semi-supervisé (appelé apprentissage actif) J'ai trouvé …

19 machine-learning classification software svm text-mining

7

Données biaisées dans l'apprentissage automatique

Je travaille sur un projet de Machine Learning avec des données déjà (fortement) biaisées par la sélection des données. Supposons que vous ayez un ensemble de règles codées en dur. Comment construire un modèle d'apprentissage automatique pour le remplacer, alors que toutes les données qu'il peut utiliser sont des données …

18 machine-learning classification data-mining bias extrapolation

1

Opinions sur le suréchantillonnage en général, et l'algorithme SMOTE en particulier [fermé]

Fermé . Cette question est basée sur l'opinion . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin d'y répondre avec des faits et des citations en modifiant ce message . Fermé il y a 2 ans . Quelle est votre opinion sur …

18 machine-learning classification oversampling

5

Classification de texte à grande échelle

Je cherche à faire une classification sur mes données texte. J'ai 300 classes200 documents de formation par classe (donc 60000 documents in total) et cela est susceptible d'entraîner des données dimensionnelles très élevées (nous pouvons rechercher plus de 1 million de dimensions ). Je voudrais effectuer les étapes suivantes dans …

18 machine-learning classification text-mining

10

Ensembles de données de réseaux sociaux

Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Je recherche des jeux de données de réseaux sociaux (twitter, friendfeed, facebook, lastfm, etc.) pour les tâches de classification, de préférence …

18 classification dataset

3

La construction d'un classificateur multiclasse est-elle meilleure que plusieurs classificateurs binaires?

J'ai besoin de classer les URL en catégories. Disons que j'ai 15 catégories que je prévois de mettre à zéro chaque URL. Un classificateur à 15 voies est-il meilleur? Où j'ai 15 étiquettes et génère des fonctionnalités pour chaque point de données. Ou construire 15 classificateurs binaires, par exemple: film …

18 machine-learning classification categorical-data svm feature-selection

2

Pourquoi le classificateur de régression d'arête fonctionne-t-il assez bien pour la classification de texte?

Au cours d'une expérience de classification de texte, j'ai trouvé un classificateur de crête générant des résultats qui dépassent constamment les tests parmi les classificateurs qui sont le plus souvent mentionnés et appliqués pour les tâches d'exploration de texte, tels que SVM, NB, kNN, etc. Cependant, je n'ai pas élaboré …

18 machine-learning classification text-mining ridge-regression

2

Test de la classification sur des données de déséquilibre suréchantillonnées

Je travaille sur des données gravement déséquilibrées. Dans la littérature, plusieurs méthodes sont utilisées pour rééquilibrer les données en utilisant un rééchantillonnage (sur ou sous-échantillonnage). Deux bonnes approches sont: SMOTE: TEchnique de suréchantillonnage des minorités synthétiques ( SMOTE ) ADASYN: Approche d'échantillonnage synthétique adaptative pour l'apprentissage déséquilibré ( ADASYN ) …

18 classification dataset resampling unbalanced-classes oversampling

1

Quiz: Dire au classificateur par sa frontière de décision

Voici les 6 limites de décision ci-dessous. Les limites de décision sont des lignes violettes. Les points et les croix sont deux ensembles de données différents. Nous devons décider lequel est: SVM linéaire SVM noyé (noyau polynomial d'ordre 2) Perceptron Régression logistique Réseau de neurones (1 couche cachée avec 10 …

17 machine-learning self-study classification neural-networks svm

3

Quand ne devrais-je pas utiliser un classificateur d'ensemble?

En général, dans un problème de classification où le but est de prédire avec précision l'appartenance à une classe hors échantillon, quand ne devrais-je pas utiliser un classificateur d'ensemble? Cette question est étroitement liée à Pourquoi ne pas toujours utiliser l'apprentissage d'ensemble? . Cette question demande pourquoi nous n'utilisons pas …

17 classification boosting ensemble bagging

1

Quand Naive Bayes fonctionne-t-il mieux que SVM?

Dans un petit problème de classification de texte que je regardais, Naive Bayes a présenté une performance similaire ou supérieure à un SVM et j'étais très confus. Je me demandais quels facteurs décident du triomphe d'un algorithme sur l'autre. Y a-t-il des situations où il est inutile d'utiliser Naive Bayes …

17 machine-learning classification svm naive-bayes

1

Je veux construire un indice de criminalité et un indice d'instabilité politique basés sur des reportages

J'ai ce projet parallèle où j'explore les sites d'information locaux de mon pays et je veux construire un indice de criminalité et un indice d'instabilité politique. J'ai déjà couvert la partie recherche d'informations du projet. Mon plan est de faire: Extraction de rubrique non supervisée. Détection des doublons proches. Classification …

17 machine-learning classification text-mining

3

Comparaison de deux résultats d'exactitude de classificateur pour la signification statistique avec le test t

Je veux comparer l'exactitude de deux classificateurs pour la signification statistique. Les deux classificateurs sont exécutés sur le même ensemble de données. Cela m'amène à croire que je devrais utiliser un test t à échantillon unique d'après ce que j'ai lu . Par exemple: Classifier 1: 51% accuracy Classifier 2: …

17 machine-learning statistical-significance classification t-test

Questions marquées «classification»