Questions marquées «model-selection»

La sélection des modèles est un problème pour juger quel modèle d'un ensemble donne les meilleurs résultats. Les méthodes populaires incluentR2, Critères AIC et BIC, ensembles de tests et validation croisée. Dans une certaine mesure, la sélection des fonctionnalités est un sous-problème de la sélection des modèles.




2
Calculer la courbe ROC pour les données
Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
Calcul du meilleur sous-ensemble de prédicteurs pour la régression linéaire
Pour la sélection des prédicteurs en régression linéaire multivariée avec prédicteurs appropriés, quelles méthodes sont disponibles pour trouver un sous-ensemble «optimal» des prédicteurs sans tester explicitement tous les sous-ensembles de ? Dans 'Applied Survival Analysis', Hosmer et Lemeshow font référence à la méthode de Kuk, mais je ne trouve pas …

1
Sélection du modèle de série chronologique: AIC vs SSE hors échantillon et leur équivalence
L'AIC est fréquemment recommandé comme critère pour comparer les modèles de prévision de séries chronologiques. Voir par exemple ceci dans le contexte des modèles de régression dynamique : L'AIC peut être calculé pour le modèle final et cette valeur peut être utilisée pour déterminer les meilleurs prédicteurs. C'est-à-dire que la …

1
Construction de modèle: comment construire un modèle gam significatif? (modèle additif généralisé)
J'ai vu qu'il y a diverses questions concernant l'interprétation et la construction des jeux, ce qui semble illustrer la difficulté pour les non-statisticiens de les traiter. Malheureusement, à partir d'aucun des threads ou tutoriels que j'ai lus, j'ai pu comprendre clairement comment construire un modèle significatif. Actuellement, j'étudie l'effet de …



4
Choisir un modèle de régression
Comment peut-on objectivement (lire "algorithmiquement") sélectionner un modèle approprié pour effectuer une régression linéaire des moindres carrés simple avec deux variables? Par exemple, disons que les données semblent montrer une tendance quadratique et qu'une parabole est générée, qui correspond assez bien aux données. Comment justifions-nous d'en faire la régression? Ou …

2
Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?
Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle se monthly spendtrouve la variable …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
Choix d'une métrique de performances de classification pour la sélection de modèle, la sélection de fonctionnalités et la publication
J'ai un petit ensemble de données déséquilibrées (70 positives, 30 négatives), et j'ai joué avec la sélection de modèle pour les paramètres SVM en utilisant BAC (précision équilibrée) et AUC (zone sous la courbe). J'ai utilisé différents poids de classe pour le paramètre C dans libSVM pour compenser les données …

2
Gérer de bonnes performances sur les données de formation et de validation, mais de très mauvaises performances sur les données de test
J'ai un problème de régression avec 5-6k variables. Je divise mes données en 3 ensembles qui ne se chevauchent pas: formation, validation et tests. Je m'entraîne en utilisant uniquement l'ensemble d'entraînement et je génère de nombreux modèles de régression linéaire différents en choisissant un ensemble différent de 200 variables pour …

1
Sélection hyperparamétrique entièrement bayésienne en GPML
Est-il possible d'effectuer une sélection approximative entièrement bayésienne (1) d'hyper-paramètres (par exemple l'échelle de covariance) avec le code GPML, au lieu de maximiser la vraisemblance marginale (2)? Je pense que l'utilisation de méthodes MCMC pour résoudre les intégrales impliquant des hyper-paramètres avant devrait conduire à de meilleurs résultats en cas …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.