Questions marquées «cross-validation»

Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.

5
Peut-on sur-adapter en apprenant des algorithmes d’apprentissage automatique en utilisant CV / Bootstrap?
Cette question est peut-être trop ouverte pour obtenir une réponse définitive, mais j'espère que non. Les algorithmes d'apprentissage machine, tels que SVM, GBM, Random Forest, etc., ont généralement quelques paramètres libres qui, au-delà de certaines indications empiriques, doivent être adaptés à chaque jeu de données. Cela se fait généralement avec …


1
Utilisation abusive de la validation croisée (rapport des performances pour la meilleure valeur d'hyperparamètre)
Récemment, je suis tombé sur un article qui propose d'utiliser un classificateur k-NN sur un ensemble de données spécifique. Les auteurs ont utilisé tous les échantillons de données disponibles pour effectuer une validation croisée k-fold pour différentes valeurs k et rapporter les résultats de la validation croisée de la meilleure …

2
Pourquoi utiliser la validation croisée stratifiée? Pourquoi cela n'endommage-t-il pas les avantages liés à la variance?
On m'a dit qu'il est avantageux d'utiliser la validation croisée stratifiée, en particulier lorsque les classes de réponse sont déséquilibrées. Si l'un des objectifs de la validation croisée est d'aider à rendre compte du caractère aléatoire de notre échantillon de données de formation d'origine, faire en sorte que chaque pli …


3
K-fold vs Monte-Carlo validation croisée
J'essaie d'apprendre différentes méthodes de validation croisée, principalement avec l'intention de m'appliquer aux techniques d'analyse multivariée supervisée. Deux que j'ai rencontrés sont des techniques de validation croisée K-fold et Monte Carlo. J'ai lu que le K-fold est une variation de Monte Carlo mais je ne suis pas sûr de bien …


1
Calcul de la répétabilité des effets d'un modèle lmer
Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Les degrés de liberté peuvent-ils être un nombre non entier?
Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 







En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.