Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.
La régularisation peut-elle être utile si nous nous intéressons uniquement à l'estimation (et à l'interprétation) des paramètres du modèle, pas à la prévision ou à la prédiction? Je vois à quel point la régularisation / validation croisée est extrêmement utile si votre objectif est de faire de bonnes prévisions sur …
Dans les manuels et les conférences sur YouTube, j'ai beaucoup appris sur les modèles itératifs tels que le boost, mais je n'ai jamais rien vu sur la dérivation d'un intervalle de prédiction. La validation croisée est utilisée pour les éléments suivants: Sélection des modèles: essayez différents modèles et choisissez celui …
J'adapte un HLM bayésien dans JAGS en utilisant la validation croisée k-fold (k = 5). Je voudrais savoir si les estimations du paramètre sont stables dans tous les plis. Quelle est la meilleure façon de procéder?ββ\beta Une idée est de trouver les différences des postérieurs de et de voir si …
J'ai un ensemble de données de 140000 exemples et 30 fonctionnalités pour lesquelles je forme plusieurs classificateurs pour une classification binaire (SVM, régression logistique, forêt aléatoire, etc.) Dans de nombreux cas, le réglage hyperparamétrique de l'ensemble de données à l'aide de la recherche par grille ou aléatoire est trop coûteux …
Je sais que pour accéder aux performances du classificateur, je dois diviser les données en ensemble de formation / test. Mais en lisant ceci : Lors de l'évaluation de différents paramètres («hyperparamètres») pour les estimateurs, tels que le paramètre C qui doit être défini manuellement pour un SVM, il existe …
Supposons que je fasse une validation croisée K-fold avec K = 10 plis. Il y aura une matrice de confusion pour chaque pli. Lors de la communication des résultats, dois-je calculer quelle est la matrice de confusion moyenne, ou simplement additionner les matrices de confusion?
D'après An Introduction to Statistical Learning de James et al., L'estimation de validation croisée avec oubli (LOOCV) est définie par CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i where MSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2. Without proof, equation (5.2) states that for a least-squares or polynomial regression (whether this applies to regression on just one variable is unknown …
J'ai un ensemble de données avec N ~ 5000 et environ 1/2 manquant sur au moins une variable importante. La principale méthode d'analyse sera les risques proportionnels de Cox. Je prévois d'utiliser l'imputation multiple. Je vais également me séparer en train et en test. Dois-je diviser les données puis imputer …
J'utilise cv.glmnetpour trouver des prédicteurs. La configuration que j'utilise est la suivante: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Pour vous assurer que les résultats sont reproductibles I set.seed(1). Les résultats sont très variables. J'ai exécuté exactement le même code 100 pour voir à quel point les résultats étaient variables. Dans les …
Je suis tombé sur ce fil en regardant les différences entre le bootstrap et la validation croisée - une excellente réponse et des références d'ailleurs. Ce que je me demande maintenant, c'est si je devais répéter un CV multiplié par 10 pour calculer la précision d'un classificateur, combien de fois …
Supposons que j'ai des données normalement distribuées. Pour chaque élément des données, je veux vérifier combien de SD il est éloigné de la moyenne. Il peut y avoir une valeur aberrante dans les données (probablement une seule, mais peut-être aussi deux ou trois) ou non, mais cette valeur aberrante est …
Quelqu'un peut-il me dire exactement ce que donne une analyse de validation croisée? Est-ce juste la précision moyenne ou donne-t-il un modèle avec des paramètres ajustés? Parce que, j'ai entendu quelque part que la validation croisée est utilisée pour le réglage des paramètres.
J'utilise des modèles SVM pour faire des prévisions à court terme des polluants atmosphériques. Pour former un nouveau modèle, je dois trouver des métaparamètres appropriés pour un modèle SVM (je veux dire C, gamma, etc.). La documentation de Libsvm (et de nombreux autres livres que j'ai lus) suggère d'utiliser la …
Afin d'étalonner un niveau de confiance à une probabilité dans un apprentissage supervisé (par exemple, pour mapper la confiance d'un SVM ou d'un arbre de décision à l'aide de données suréchantillonnées), une méthode consiste à utiliser la mise à l'échelle de Platt (par exemple, obtenir des probabilités calibrées à partir …
J'ai lu les articles suivants pour la validation croisée imbriquée et je ne suis toujours pas sûr à 100% de ce que je dois faire avec la sélection de modèle avec la validation croisée imbriquée: Validation croisée imbriquée pour la sélection du modèle Sélection de modèle et validation croisée: la …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.