Questions marquées «unbalanced-classes»

Les données organisées en catégories discrètes ou * classes * peuvent poser des problèmes pour certaines analyses si le nombre d'observations (n) appartenant à chaque classe n'est pas constante d'une classe à l'autre. Les classes avec inégal sont * déséquilibrées *. n


3
Rappel élevé - faible précision pour un ensemble de données déséquilibré
Je rencontre actuellement des problèmes lors de l'analyse d'un ensemble de données de tweet avec des machines à vecteurs de support. Le problème est que j'ai un ensemble d'entraînement en classe binaire déséquilibré (5: 2); qui devrait être proportionnelle à la distribution réelle des classes. Lors de la prédiction, j'obtiens …

1
Courbes ROC pour les jeux de données non équilibrés
Considérons une matrice d'entrée et une sortie binaire .yXXXyyy Une façon courante de mesurer les performances d'un classificateur consiste à utiliser des courbes ROC. Dans un tracé ROC, la diagonale est le résultat qui serait obtenu à partir d'un classificateur aléatoire. En cas de sortie asymétrique les performances d'un classificateur …



1
Quel modèle d'apprentissage en profondeur peut classer des catégories qui ne s'excluent pas mutuellement
Exemples: J'ai une phrase dans la description de poste: "Java senior engineer in UK". Je veux utiliser un modèle d'apprentissage profond pour le prédire en 2 catégories: English et IT jobs. Si j'utilise un modèle de classification traditionnel, il ne peut prédire qu'une seule étiquette avec softmaxfonction à la dernière …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Suréchantillonnage avec des variables catégorielles
Je voudrais effectuer une combinaison de suréchantillonnage et de sous-échantillonnage afin d'équilibrer mon ensemble de données avec environ 4000 clients divisés en deux groupes, où l'un des groupes a une proportion d'environ 15%. J'ai examiné SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) et ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), mais les deux créent de …



3
Les données d'entraînement sont déséquilibrées - mais mon ensemble de validation devrait-il l'être également?
J'ai étiqueté des données composées de 10000 exemples positifs et 50000 exemples négatifs, ce qui donne un total de 60000 exemples. Évidemment, ces données sont déséquilibrées. Disons maintenant que je veux créer mon ensemble de validation et que je souhaite utiliser 10% de mes données pour le faire. Ma question …

1
Les données déséquilibrées à échantillonnage supérieur ou inférieur sont-elles réellement efficaces? Pourquoi?
J'entends souvent un échantillonnage à la hausse ou à la baisse des données discutées comme moyen de traiter la classification des données déséquilibrées. Je comprends que cela pourrait être utile si vous travaillez avec un classificateur binaire (par opposition à un classificateur probabiliste ou basé sur les scores) et que …


2
Une grande différence dans la taille des échantillons ainsi qu'une différence dans les variances sont-elles importantes pour un test t (ou test de permutation)?
Il y a une question très confuse dans mon esprit. J'ai des données et j'aimerais comparer les scores numériques entre hommes et femmes. Il y a une grande différence dans ces deux groupes: le nombre d'hommes est de 34, tandis que le nombre de femmes est de 310, et les …


1
Biais de régression Softmax et probabilités a priori pour des classes inégales
J'utilise la régression Softmax pour un problème de classification multi-classes. Je n'ai pas de probabilités antérieures égales pour chacune des classes. Je sais par régression logistique (régression softmax avec 2 classes) que les probabilités antérieures des classes sont implicitement ajoutées au biais ( ).log(p0/p1)log⁡(p0/p1)\log(p_0/p_1) Habituellement, ce que je fais est …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.