Questions marquées «classification»

La classification statistique est le problème de l'identification de la sous-population à laquelle appartiennent de nouvelles observations, où l'identité de la sous-population est inconnue, sur la base d'un ensemble d'apprentissage de données contenant des observations dont la sous-population est connue. Ces classifications montreront donc un comportement variable qui peut être étudié par des statistiques.

1
Comment comparer les événements observés aux événements attendus?
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
Classification avec un prédicteur dominant
J'ai un problème de classification (de classe ), avec de l'ordre de 100 prédicteurs à valeur réelle, dont l'un semble avoir beaucoup plus de pouvoir explicatif que les autres. Je voudrais approfondir les effets des autres variables. Cependant, les techniques standard d'apprentissage automatique (forêts aléatoires, SVM, etc.) semblent être submergées …

2
Supprimer les doublons de l'ensemble d'entraînement pour la classification
Disons que j'ai un tas de lignes pour un problème de classification: X1,...XN,YX1,...XN,YX_1, ... X_N, Y Où sont les entités / prédicteurs et est la classe à laquelle la combinaison d' entités de la ligne appartient.X1,...,XNX1,...,XNX_1, ..., X_NYYY De nombreuses combinaisons de fonctionnalités et leurs classes sont répétées dans l'ensemble …


4
Comment effectuer plusieurs tests chi carré post-hoc sur une table 2 X 3?
Mon ensemble de données comprend la mortalité totale ou la survie d'un organisme sur trois types de sites: côtier, médian et extracôtier. Les nombres dans le tableau ci-dessous représentent le nombre de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Je voudrais savoir si …


2
Calculer la courbe ROC pour les données
Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 



2
La forêt aléatoire est-elle une bonne option pour la classification des données déséquilibrées? [fermé]
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 3 ans . Malgré les approches ressemblantes et d'autres …


3
KNN: 1 voisin le plus proche
Ma question porte sur le classificateur du plus proche voisin et concerne une déclaration faite dans l'excellent livre The Elements of Statistical Learning, par Hastie, Tibshirani et Friedman. La déclaration est (p. 465, section 13.3): "Parce qu'il utilise uniquement le point d'apprentissage le plus proche du point d'interrogation, le biais …

1
Analyse discriminante linéaire pour
J'étudie «Introduction à l'apprentissage statistique» par James, Witten, Hastie, Tibshirani. À la page 139 de leur livre, ils ont commencé par présenter le théorème de Bayes . n'est pas une constante mathématique, mais indique la probabilité antérieure. Rien n'est étrange dans cette équation.pk( X) = P( O= k | X= …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.