Questions marquées «classification»

La classification statistique est le problème de l'identification de la sous-population à laquelle appartiennent de nouvelles observations, où l'identité de la sous-population est inconnue, sur la base d'un ensemble d'apprentissage de données contenant des observations dont la sous-population est connue. Ces classifications montreront donc un comportement variable qui peut être étudié par des statistiques.


4
Quel problème le suréchantillonnage, le sous-échantillonnage et SMOTE résolvent-ils?
Dans une question récente et bien reçue, Tim demande quand les données non équilibrées sont-elles vraiment un problème dans le Machine Learning ? La prémisse de la question est qu'il y a beaucoup de littérature d'apprentissage automatique discutant de l'équilibre des classes et du problème des classes déséquilibrées . L'idée …

2
Sac de mots pour la classification de texte: pourquoi ne pas simplement utiliser des fréquences de mots au lieu de TFIDF?
Une approche courante de la classification des textes consiste à former un classificateur à partir d'un «sac de mots». L'utilisateur prend le texte à classer et compte les fréquences des mots dans chaque objet, suivi d'une sorte de recadrage pour conserver la matrice résultante d'une taille gérable. Souvent, je vois …


3
Validation croisée ou amorçage pour évaluer les performances de classification?
Quelle est la méthode d'échantillonnage la plus appropriée pour évaluer la performance d'un classificateur sur un ensemble de données particulier et la comparer avec d'autres classificateurs? La validation croisée semble être une pratique standard, mais j'ai lu que des méthodes telles que le bootstrap .632 sont un meilleur choix. À …

2
De quelle taille un ensemble d'entraînement est-il nécessaire?
Existe-t-il une méthode courante pour déterminer le nombre d'échantillons d'apprentissage nécessaires pour former un classificateur (un LDA dans ce cas) afin d'obtenir une précision de généralisation de seuil minimum? Je pose la question parce que je voudrais minimiser le temps d'étalonnage habituellement requis dans une interface cerveau-ordinateur.


2
Comment gérer la différence entre la distribution de l'ensemble de test et l'ensemble de formation?
Je pense qu'une hypothèse de base de l'apprentissage automatique ou de l'estimation des paramètres est que les données invisibles proviennent de la même distribution que l'ensemble d'apprentissage. Cependant, dans certains cas pratiques, la distribution de l'ensemble de test sera presque différente de l'ensemble de formation. Disons pour un problème de …

3
Visualisation de l'étalonnage de la probabilité prédite d'un modèle
Supposons que j'ai un modèle prédictif qui produit, pour chaque instance, une probabilité pour chaque classe. Je reconnais maintenant qu'il existe de nombreuses façons d'évaluer un tel modèle si je veux utiliser ces probabilités pour la classification (précision, rappel, etc.). Je reconnais également qu'une courbe ROC et l'aire sous-jacente peuvent …



4
Pourquoi les chercheurs utilisent-ils la validation croisée 10 fois au lieu de tester sur un ensemble de validation?
J'ai lu de nombreux articles de recherche sur la classification des sentiments et des sujets connexes. La plupart d'entre eux utilisent une validation croisée 10 fois pour former et tester les classificateurs. Cela signifie qu'aucun test / validation séparé n'est effectué. Pourquoi donc? Quels sont les avantages / inconvénients de …




En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.