Questions marquées «cross-validation»

Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.


1
Pourquoi des informations sur les données de validation ont-elles été divulguées si j'évalue les performances du modèle sur les données de validation lors du réglage des hyperparamètres?
Dans le Deep Learning de François Chollet avec Python, il est écrit: Par conséquent, le réglage de la configuration du modèle en fonction de ses performances sur l'ensemble de validation peut rapidement entraîner un surajustement de l'ensemble de validation, même si votre modèle n'est jamais directement formé sur celui-ci. La …


1
Quel modèle d'apprentissage en profondeur peut classer des catégories qui ne s'excluent pas mutuellement
Exemples: J'ai une phrase dans la description de poste: "Java senior engineer in UK". Je veux utiliser un modèle d'apprentissage profond pour le prédire en 2 catégories: English et IT jobs. Si j'utilise un modèle de classification traditionnel, il ne peut prédire qu'une seule étiquette avec softmaxfonction à la dernière …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Est-il réellement correct d'effectuer une sélection de fonctionnalités non supervisée avant la validation croisée?
Dans The Elements of Statistical Learning , j'ai trouvé l'énoncé suivant: Il y a une qualification: les étapes initiales de dépistage non supervisé peuvent être effectuées avant de laisser des échantillons. Par exemple, nous pourrions sélectionner les 1000 prédicteurs présentant la variance la plus élevée parmi les 50 échantillons, avant …

2
Faut-il toujours faire du CV?
Ma question: dois-je faire du CV même pour un ensemble de données relativement volumineux? J'ai un ensemble de données relativement volumineux et j'appliquerai un algorithme d'apprentissage automatique à l'ensemble de données. Comme mon PC n'est pas rapide, le CV (et la recherche dans la grille) prend parfois trop de temps. …



2
Rétro-test ou validation croisée lorsque le processus de création de modèle était interactif
J'ai quelques modèles prédictifs dont je voudrais tester les performances (c.-à-d. Prendre mon jeu de données, le «rembobiner» à un point antérieur dans le temps et voir comment le modèle aurait fonctionné de manière prospective). Le problème est que certains de mes modèles ont été construits via un processus interactif. …

2
Estimation d'erreur hors du sac pour augmenter?
Dans Random Forest, chaque arbre est cultivé en parallèle sur un échantillon boostrap unique des données. Étant donné que chaque échantillon boostrap devrait contenir environ 63% d'observations uniques, cela laisse environ 37% d'observations, qui peuvent être utilisées pour tester l'arbre. Maintenant, il semble que dans le boosting de gradient stochastique, …


2
Comment trouver des valeurs optimales pour les paramètres de réglage dans les arbres boostés?
Je me rends compte qu'il y a 3 paramètres de réglage dans le modèle de boosting trees, c'est-à-dire le nombre d'arbres (nombre d'itérations) paramètre de rétrécissement nombre de divisions (taille de chaque arbre constitutif) Ma question est: pour chacun des paramètres de réglage, comment dois-je trouver sa valeur optimale? Et …


1
Comment comparer les événements observés aux événements attendus?
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.