Questions marquées «unbalanced-classes»

Les données organisées en catégories discrètes ou * classes * peuvent poser des problèmes pour certaines analyses si le nombre d'observations (n) appartenant à chaque classe n'est pas constante d'une classe à l'autre. Les classes avec inégal sont * déséquilibrées *. n








4
Optimisation des courbes précision-rappel sous déséquilibre de classe
J'ai une tâche de classification où j'ai un certain nombre de prédicteurs (dont l'un est le plus informatif), et j'utilise le modèle MARS pour construire mon classificateur (je suis intéressé par n'importe quel modèle simple, et utiliser glms à des fins d'illustration serait bien aussi). Maintenant, j'ai un énorme déséquilibre …



4
Quelle est l'utilisation appropriée de scale_pos_weight dans xgboost pour les jeux de données déséquilibrés?
J'ai un ensemble de données très déséquilibré. J'essaie de suivre les conseils de réglage et d'utilisation, scale_pos_weightmais je ne sais pas comment dois-je le régler. Je peux voir que cela RegLossObj.GetGradientfait: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight donc un gradient d'un échantillon positif aurait plus d'influence. Cependant, selon l' …

4
Quel problème le suréchantillonnage, le sous-échantillonnage et SMOTE résolvent-ils?
Dans une question récente et bien reçue, Tim demande quand les données non équilibrées sont-elles vraiment un problème dans le Machine Learning ? La prémisse de la question est qu'il y a beaucoup de littérature d'apprentissage automatique discutant de l'équilibre des classes et du problème des classes déséquilibrées . L'idée …

2
Comment gérer la différence entre la distribution de l'ensemble de test et l'ensemble de formation?
Je pense qu'une hypothèse de base de l'apprentissage automatique ou de l'estimation des paramètres est que les données invisibles proviennent de la même distribution que l'ensemble d'apprentissage. Cependant, dans certains cas pratiques, la distribution de l'ensemble de test sera presque différente de l'ensemble de formation. Disons pour un problème de …

3
Mesures de classification / évaluation pour les données très déséquilibrées
Je fais face à un problème de détection de fraude (de type notation de crédit). En tant que tel, il existe une relation très déséquilibrée entre les observations frauduleuses et non frauduleuses. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html fournit un excellent aperçu des différentes métriques de classification. Precision and Recallou les kappadeux semblent être un …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.