Questions marquées «classification»

La classification statistique est le problème de l'identification de la sous-population à laquelle appartiennent de nouvelles observations, où l'identité de la sous-population est inconnue, sur la base d'un ensemble d'apprentissage de données contenant des observations dont la sous-population est connue. Ces classifications montreront donc un comportement variable qui peut être étudié par des statistiques.

3
Pourquoi svm n'est-il pas aussi bon que l'arbre de décision sur les mêmes données?
Je suis nouveau dans l'apprentissage automatique et j'essaie d'utiliser scikit-learn (sklearn) pour résoudre un problème de classification. Les deux DecisionTree et SVM peuvent former un classificateur à ce problème. J'utilise sklearn.ensemble.RandomForestClassifieret sklearn.svm.SVCpour ajuster les mêmes données de formation (environ 500 000 entrées avec 50 fonctionnalités par entrée). Le RandomForestClassifier sort …

2
Ensemble de données de test très déséquilibré et données d'entraînement équilibrées dans la classification
J'ai un ensemble de formation avec environ 3000 instances positives et 3000 instances négatives. Mais mon ensemble de données de test est à peu près déséquilibré. L'ensemble positif n'a que 50 instances et le négatif a 1500 instances, ce qui entraîne une précision très faible. Existe-t-il des approches pour résoudre …


1
Techniques d'apprentissage incrémentiel en ligne du classificateur sur les données de flux
Quelles sont les bonnes techniques pour faire face à ce problème abstrait? Vous disposez d'un flux de données d'un signal continu, comme celui d'un capteur physique. Ce signal a des valeurs réelles (discrétisées), aucun attribut; des caractéristiques de dépendance (p. ex. puissance, auto-corrélation, entropie) pourraient être extraites. Vous pouvez affecter …

1
Techniques de catégorisation / segmentation
Tout d'abord, permettez-moi de dire que je suis un peu hors de ma profondeur ici, donc si cette question doit être reformulée ou fermée en double, veuillez me le faire savoir. Il se peut simplement que je n'ai pas le vocabulaire approprié pour exprimer ma question. Je travaille sur une …

2
Perte de charnière avec un classificateur un contre tous
Je regarde actuellement la forme primitive non contrainte du classificateur un contre tous ∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}) où NININ_I est le nombre d'instances, est le nombre de classes, est le nombre d'entités, est une matrice de données , est un vecteur d'étiquettes de classe, est une où …


4
Comment interpréter le Lasso en réduisant tous les coefficients à 0?
J'ai un ensemble de données avec 338 prédicteurs et 570 instances (impossible de télécharger malheureusement) sur lequel j'utilise le Lasso pour effectuer la sélection des fonctionnalités. En particulier, j'utilise la cv.glmnetfonction glmnetcomme suit, où se mydata_matrixtrouve une matrice binaire 570 x 339 et la sortie est également binaire: library(glmnet) x_dat …


1
Encodage de caractéristiques catégorielles à cardinalité élevée (plusieurs catégories) lorsque les fonctionnalités diffèrent considérablement sur la cardinalité
J'ai cherché dans les questions concernant l'encodage catégorique des fonctionnalités, mais je n'ai trouvé aucune discussion sur mon problème. Toutes mes excuses si je l'ai raté. Disons que nous avons un ensemble de données avec des variables binaires et nominales d'importance à peu près égale. La plupart des classificateurs ne …

1
Définition de la régression
De Wikipédia: En modélisation statistique, l' analyse de régression est un processus statistique permettant d'estimer les relations entre les variables. Il comprend de nombreuses techniques de modélisation et d'analyse de plusieurs variables, lorsque l'accent est mis sur la relation entre une variable dépendante et une ou plusieurs variables indépendantes (ou …

3
Comment effectuer une SVD pour imputer des valeurs manquantes, un exemple concret
J'ai lu les excellents commentaires sur la façon de traiter les valeurs manquantes avant d'appliquer SVD, mais j'aimerais savoir comment cela fonctionne avec un exemple simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Étant donné la matrice …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
PANIER: Sélection du meilleur prédicteur de fractionnement lorsque les gains de diminution d'impureté sont égaux?
Ma question concerne les arbres de classification . Prenons l'exemple suivant de l'ensemble de données Iris: Je souhaite sélectionner manuellement le meilleur prédicteur pour la première division. Selon l'algorithme CART, la meilleure fonctionnalité pour effectuer un fractionnement est celle qui maximise la diminution de l'impureté de la partition, également appelée …

1
Les données déséquilibrées à échantillonnage supérieur ou inférieur sont-elles réellement efficaces? Pourquoi?
J'entends souvent un échantillonnage à la hausse ou à la baisse des données discutées comme moyen de traiter la classification des données déséquilibrées. Je comprends que cela pourrait être utile si vous travaillez avec un classificateur binaire (par opposition à un classificateur probabiliste ou basé sur les scores) et que …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.