Questions marquées «cross-validation»

Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.

2
AUC en régression logistique ordinale
J'utilise 2 types de régression logistique - l'un est le type simple, pour la classification binaire, et l'autre est la régression logistique ordinale. Pour calculer la précision de la première, j'ai utilisé la validation croisée, où j'ai calculé l'AUC pour chaque pli et ensuite calculé l'ASC moyenne. Comment puis-je le …

2
Validation croisée pour les modèles mixtes?
Mon collègue et moi ajustons une gamme de modèles d'effets mixtes linéaires et non linéaires dans R. On nous demande d'effectuer une validation croisée sur les modèles ajustés afin que l'on puisse vérifier que les effets observés sont relativement généralisables. C'est normalement une tâche triviale, mais dans notre cas, nous …

2
Comment appliquer correctement la validation croisée dans le contexte de la sélection des paramètres d'apprentissage pour les machines à vecteurs de support?
Le merveilleux paquet libsvm fournit une interface python et un fichier "easy.py" qui recherche automatiquement les paramètres d'apprentissage (coût et gamma) qui maximisent la précision du classificateur. Dans un ensemble de paramètres d'apprentissage candidat donné, la précision est opérationnalisée par la validation croisée, mais j'ai l'impression que cela sape l'objectif …


2
Calculer la courbe ROC pour les données
Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 




1
Techniques pour détecter le sur-ajustement
J'ai eu un entretien d'embauche pour un poste en science des données. Au cours de l'entretien, on m'a demandé ce que je dois faire pour m'assurer que le modèle n'est pas trop adapté. Ma première réponse a été d'utiliser la validation croisée pour évaluer les performances du modèle. Cependant, l'intervieweur …

3
Les données d'entraînement sont déséquilibrées - mais mon ensemble de validation devrait-il l'être également?
J'ai étiqueté des données composées de 10000 exemples positifs et 50000 exemples négatifs, ce qui donne un total de 60000 exemples. Évidemment, ces données sont déséquilibrées. Disons maintenant que je veux créer mon ensemble de validation et que je souhaite utiliser 10% de mes données pour le faire. Ma question …


1
Sélection du modèle de série chronologique: AIC vs SSE hors échantillon et leur équivalence
L'AIC est fréquemment recommandé comme critère pour comparer les modèles de prévision de séries chronologiques. Voir par exemple ceci dans le contexte des modèles de régression dynamique : L'AIC peut être calculé pour le modèle final et cette valeur peut être utilisée pour déterminer les meilleurs prédicteurs. C'est-à-dire que la …



2
Signification de l'erreur de test conditionnelle par rapport à l'erreur de test attendue dans la validation croisée
Mon manuel sur la validation croisée est Les éléments de l'apprentissage statistique par Hastie et al. (2e éd.). Dans les sections 7.10.1 et 7.12, ils parlent de la différence entre l'erreur de test conditionnelleE(X∗,Y∗)[L(Y,f^(X))|τ]E(X∗,Y∗)[L(Y,f^(X))|τ]E_{(X^*,Y^*)}[L(Y, \hat{f}(X))|\tau] et erreur de test attendue Eτ[E(X∗,Y∗)[L(Y,f^(X))|τ]].Eτ[E(X∗,Y∗)[L(Y,f^(X))|τ]].E_\tau [E_{(X^*,Y^*)}[L(Y, \hat{f}(X))|\tau]]. Ici ττ\tau est l'ensemble de données de …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.