Remarque: le cas est n >> p
Je lis Éléments d'apprentissage statistique et il y a diverses mentions sur la «bonne» façon de faire la validation croisée (par exemple page 60, page 245). Plus précisément, ma question est de savoir comment évaluer le modèle final (sans ensemble de test séparé) en utilisant k-fold CV ou bootstrapping lorsqu'il y a eu une recherche de modèle? Il semble que dans la plupart des cas (algorithmes ML sans sélection de fonction intégrée), il y aura
- Une étape de sélection des fonctionnalités
- Une étape de sélection de méta-paramètres (par exemple le paramètre de coût dans SVM).
Mes questions:
- J'ai vu que l'étape de sélection des fonctionnalités peut être effectuée là où la sélection des fonctionnalités est effectuée sur l'ensemble de la formation et maintenue de côté. Ensuite, en utilisant k-fold CV, l'algorithme de sélection des caractéristiques est utilisé dans chaque pli (obtention de différentes caractéristiques éventuellement choisies à chaque fois) et l'erreur est moyennée. Ensuite, vous utiliseriez les fonctionnalités choisies en utilisant toutes les données (qui ont été mises de côté) pour entraîner le mode final, mais vous utiliseriez l'erreur de la validation croisée comme estimation des performances futures du modèle. EST-CE CORRECT?
- Lorsque vous utilisez la validation croisée pour sélectionner les paramètres du modèle, comment estimer ensuite les performances du modèle? S'AGIT-IL DU MÊME PROCESSUS QUE LE N ° 1 CI-DESSUS OU DEVRIEZ-VOUS UTILISER UN CV IMPRIMÉ COMME INDIQUÉ À LA PAGE 54 ( pdf ) OU QUELQUE CHOSE DE PLUS ?
- Lorsque vous effectuez les deux étapes (réglage des fonctionnalités et des paramètres) ..... alors que faites-vous? boucles imbriquées complexes?
- Si vous avez un échantillon de rétention séparé, le problème disparaît-il et vous pouvez utiliser la validation croisée pour sélectionner les caractéristiques et les paramètres (sans souci puisque votre estimation de performance proviendra d'un ensemble de rétention)?