Questions marquées «cross-validation»

Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.

2
Statistiques PRESS pour la régression des crêtes
Dans les moindres carrés ordinaires, en régressant un vecteur cible contre un ensemble de prédicteurs , la matrice de chapeau est calculée commeyyyXXX H= X(XtX)- 1XtH=X(XtX)-1XtH = X (X^tX)^{-1} X^t et la PRESSE (somme résiduelle prédite des carrés) est calculée par SSP=∑je(eje1 -hje je)2SSP=∑je(eje1-hjeje)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 où est …


1
Comment obtenir des hyperparamètres optimaux après validation croisée imbriquée?
En général, si nous avons un grand ensemble de données, nous pouvons le diviser en (1) formation, (2) validation et (3) test. Nous utilisons la validation pour identifier les meilleurs hyperparamètres en validation croisée (par exemple, C dans SVM), puis nous formons le modèle en utilisant les meilleurs hyperparamètres avec …

1
Comment interpréter le tracé cv.glmnet ()?
J'ai effectué un lasso, puis laissé une validation croisée cv<-cv.glmnet(df, df$Price, nfolds = 1500) Lorsque je trace un cv, j'obtiens ce qui suit: J'ai aussi remarqué que j'obtenais 2 lambdas différents: lambda.minetlambda.1se Quelle est la différence entre ces lambdas? Que puis-je comprendre de l'intrigue ci-dessus en général (à quoi servent …

3
Arrêt précoce vs validation croisée
J'utilise actuellement l'arrêt précoce de mon travail pour éviter un ajustement excessif. Plus précisément, ceux pris sous forme d' arrêt anticipé, mais quand? . Je veux maintenant comparer avec d'autres algorithmes de classification où il semble que la validation croisée 10 fois soit largement utilisée. Cependant, je ne sais pas …


3
Choix d'une métrique de performances de classification pour la sélection de modèle, la sélection de fonctionnalités et la publication
J'ai un petit ensemble de données déséquilibrées (70 positives, 30 négatives), et j'ai joué avec la sélection de modèle pour les paramètres SVM en utilisant BAC (précision équilibrée) et AUC (zone sous la courbe). J'ai utilisé différents poids de classe pour le paramètre C dans libSVM pour compenser les données …

2
Gérer de bonnes performances sur les données de formation et de validation, mais de très mauvaises performances sur les données de test
J'ai un problème de régression avec 5-6k variables. Je divise mes données en 3 ensembles qui ne se chevauchent pas: formation, validation et tests. Je m'entraîne en utilisant uniquement l'ensemble d'entraînement et je génère de nombreux modèles de régression linéaire différents en choisissant un ensemble différent de 200 variables pour …


6
L'utilisation des mêmes données pour la sélection d'entités et la validation croisée est-elle biaisée ou non?
Nous avons un petit ensemble de données (environ 250 échantillons * 100 entités) sur lequel nous voulons construire un classificateur binaire après avoir sélectionné le meilleur sous-ensemble d'entités. Disons que nous partitionnons les données en: Formation, validation et tests Pour la sélection des fonctionnalités, nous appliquons un modèle de wrapper …

3
Puis-je effectuer une recherche exhaustive avec validation croisée pour la sélection des fonctionnalités?
J'ai lu certains articles sur la sélection des fonctionnalités et la validation croisée, mais j'ai encore des questions sur la bonne procédure. Supposons que j'ai un ensemble de données avec 10 fonctionnalités et que je souhaite sélectionner les meilleures fonctionnalités. Supposons également que j'utilise un classificateur de voisin le plus …


3
Soutenir la régression vectorielle sur les données asymétriques / à kurtosis élevé
J'utilise la régression vectorielle de support pour modéliser certaines données assez asymétriques (avec un kurtosis élevé). J'ai essayé de modéliser les données directement, mais je reçois des prédictions erronées, je pense principalement en raison de la distribution des données, qui est faussée à droite avec des queues très grasses. Je …


2
k-fold CV des prévisions de séries chronologiques financières - les performances du dernier pli sont-elles plus pertinentes?
Je travaille sur un modèle de prévision basé sur ANN pour une série temporelle financière. J'utilise la validation croisée 5 fois et les performances moyennes sont ainsi. Les performances sur le dernier pli (l'itération où le dernier segment est omis de la formation et utilisé pour la validation) sont meilleures …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.