Statistiques et Big Data cross-validation

5

Peut-on sur-adapter en apprenant des algorithmes d’apprentissage automatique en utilisant CV / Bootstrap?

Cette question est peut-être trop ouverte pour obtenir une réponse définitive, mais j'espère que non. Les algorithmes d'apprentissage machine, tels que SVM, GBM, Random Forest, etc., ont généralement quelques paramètres libres qui, au-delà de certaines indications empiriques, doivent être adaptés à chaque jeu de données. Cela se fait généralement avec …

34 machine-learning cross-validation bootstrap optimization resampling

3

Comment la validation croisée surmonte-t-elle le problème de surajustement?

Pourquoi une procédure de validation croisée résout-elle le problème de surapprentissage d'un modèle?

34 regression model-selection cross-validation

1

Utilisation abusive de la validation croisée (rapport des performances pour la meilleure valeur d'hyperparamètre)

Récemment, je suis tombé sur un article qui propose d'utiliser un classificateur k-NN sur un ensemble de données spécifique. Les auteurs ont utilisé tous les échantillons de données disponibles pour effectuer une validation croisée k-fold pour différentes valeurs k et rapporter les résultats de la validation croisée de la meilleure …

31 cross-validation references model-selection model-evaluation

2

Pourquoi utiliser la validation croisée stratifiée? Pourquoi cela n'endommage-t-il pas les avantages liés à la variance?

On m'a dit qu'il est avantageux d'utiliser la validation croisée stratifiée, en particulier lorsque les classes de réponse sont déséquilibrées. Si l'un des objectifs de la validation croisée est d'aider à rendre compte du caractère aléatoire de notre échantillon de données de formation d'origine, faire en sorte que chaque pli …

29 cross-validation resampling stratification

1

Mesures d'erreur pour les modèles de Poisson à validation croisée

Je suis en train de valider un modèle qui essaie de prédire un nombre. S'il s'agissait d'un problème de classification binaire, je calculerais l'ASC hors pli, et s'il s'agissait d'un problème de régression, je calculerais le RMSE ou MAE hors pli. Pour un modèle de Poisson, quelles mesures d'erreur puis-je …

29 cross-validation poisson-distribution count-data deviance scoring-rules

3

K-fold vs Monte-Carlo validation croisée

J'essaie d'apprendre différentes méthodes de validation croisée, principalement avec l'intention de m'appliquer aux techniques d'analyse multivariée supervisée. Deux que j'ai rencontrés sont des techniques de validation croisée K-fold et Monte Carlo. J'ai lu que le K-fold est une variation de Monte Carlo mais je ne suis pas sûr de bien …

29 cross-validation monte-carlo

3

Validation croisée comprenant la formation, la validation et les tests. Pourquoi avons-nous besoin de trois sous-ensembles?

J'ai une question concernant le processus de validation croisée. Je suis au milieu d'un cours de Machine Learning sur la Cursera. L'un des sujets concerne la validation croisée. J'ai trouvé ça un peu difficile à suivre. Je sais pourquoi nous avons besoin de CV parce que nous voulons que nos …

29 machine-learning cross-validation

1

Calcul de la répétabilité des effets d'un modèle lmer

Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Les degrés de liberté peuvent-ils être un nombre non entier?

Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

Pourquoi y a-t-il une asymétrie entre l'étape de formation et l'étape d'évaluation?

Il est bien connu, en particulier dans le traitement du langage naturel, que l’apprentissage automatique doit se dérouler en deux étapes, une étape de formation et une étape d’évaluation, et utiliser des données différentes. Pourquoi est-ce? Intuitivement, ce processus permet d'éviter de sur-ajuster les données, mais je ne vois pas …

27 machine-learning cross-validation

1

La validation croisée est-elle un substitut approprié à l'ensemble de validation?

Dans la classification de texte, j'ai un ensemble de formation avec environ 800 échantillons et un ensemble de test avec environ 150 échantillons. L'ensemble de test n'a jamais été utilisé et attend d'être utilisé jusqu'à la fin. J'utilise l'ensemble de formation de 800 échantillons, avec une validation croisée 10 fois …

27 machine-learning classification cross-validation text-mining

2

Estimations de la variance dans la validation croisée multipliée par k

La validation croisée K-fold peut être utilisée pour estimer la capacité de généralisation d'un classificateur donné. Puis-je (ou devrais-je) également calculer une variance regroupée à partir de tous les cycles de validation afin d'obtenir une meilleure estimation de sa variance? Sinon, pourquoi? J'ai trouvé des articles qui utilisent l'écart-type groupé …

27 machine-learning cross-validation

1

Comment peut-on démontrer empiriquement dans R à quelles méthodes de validation croisée l'AIC et le BIC sont équivalents?

Dans une question ailleurs sur ce site, plusieurs réponses ont mentionné que l'AIC est équivalent à la validation croisée avec absence de contact (LOO) et que le BIC est équivalent à la validation croisée K-fold. Existe-t-il un moyen de démontrer empiriquement cela dans R de telle sorte que les techniques …

26 r aic cross-validation bic

4

Validation croisée interne et externe et sélection du modèle

Je crois comprendre qu'avec la validation croisée et la sélection de modèles, nous essayons de résoudre deux choses: P1 . Estimer la perte attendue sur la population lors de la formation avec notre échantillon P2 . Mesurer et rendre compte de notre incertitude sur cette estimation (variance, intervalles de confiance, …

26 estimation cross-validation references

4

Comment utilisez-vous l'ensemble de données «test» après la validation croisée?

Dans certaines conférences et tutoriels que j'ai vus, ils suggèrent de diviser vos données en trois parties: formation, validation et test. Mais il n'est pas clair comment le jeu de données de test doit être utilisé, ni comment cette approche est meilleure que la validation croisée sur l'ensemble des données. …

25 machine-learning cross-validation validation

Questions marquées «cross-validation»