Questions marquées «cross-validation»

Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.

2
La régularisation peut-elle être utile si nous ne nous intéressons qu'à la modélisation, pas aux prévisions?
La régularisation peut-elle être utile si nous nous intéressons uniquement à l'estimation (et à l'interprétation) des paramètres du modèle, pas à la prévision ou à la prédiction? Je vois à quel point la régularisation / validation croisée est extrêmement utile si votre objectif est de faire de bonnes prévisions sur …



6
Le réglage d'hyperparamètre sur un échantillon de jeu de données est-il une mauvaise idée?
J'ai un ensemble de données de 140000 exemples et 30 fonctionnalités pour lesquelles je forme plusieurs classificateurs pour une classification binaire (SVM, régression logistique, forêt aléatoire, etc.) Dans de nombreux cas, le réglage hyperparamétrique de l'ensemble de données à l'aide de la recherche par grille ou aléatoire est trop coûteux …



1
Preuve de la formule LOOCV
D'après An Introduction to Statistical Learning de James et al., L'estimation de validation croisée avec oubli (LOOCV) est définie par CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i where MSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2. Without proof, equation (5.2) states that for a least-squares or polynomial regression (whether this applies to regression on just one variable is unknown …


5
Variabilité dans les résultats cv.glmnet
J'utilise cv.glmnetpour trouver des prédicteurs. La configuration que j'utilise est la suivante: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Pour vous assurer que les résultats sont reproductibles I set.seed(1). Les résultats sont très variables. J'ai exécuté exactement le même code 100 pour voir à quel point les résultats étaient variables. Dans les …

2
Combien de fois devons-nous répéter un CV multiplié par K?
Je suis tombé sur ce fil en regardant les différences entre le bootstrap et la validation croisée - une excellente réponse et des références d'ailleurs. Ce que je me demande maintenant, c'est si je devais répéter un CV multiplié par 10 pour calculer la précision d'un classificateur, combien de fois …


4
Validation croisée et réglage des paramètres
Quelqu'un peut-il me dire exactement ce que donne une analyse de validation croisée? Est-ce juste la précision moyenne ou donne-t-il un modèle avec des paramètres ajustés? Parce que, j'ai entendu quelque part que la validation croisée est utilisée pour le réglage des paramètres.


2
Pourquoi utiliser la mise à l'échelle de Platt?
Afin d'étalonner un niveau de confiance à une probabilité dans un apprentissage supervisé (par exemple, pour mapper la confiance d'un SVM ou d'un arbre de décision à l'aide de données suréchantillonnées), une méthode consiste à utiliser la mise à l'échelle de Platt (par exemple, obtenir des probabilités calibrées à partir …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.