En général, si nous avons un grand ensemble de données, nous pouvons le diviser en (1) formation, (2) validation et (3) test. Nous utilisons la validation pour identifier les meilleurs hyperparamètres en validation croisée (par exemple, C dans SVM), puis nous formons le modèle en utilisant les meilleurs hyperparamètres avec l'ensemble de formation et appliquons le modèle formé au test pour obtenir les performances.
Si nous avons un petit ensemble de données, nous ne pouvons pas créer de jeu d'apprentissage et de test (pas assez d'échantillons). Par conséquent, nous ferons une validation croisée (k-fold, Leave-One-Out, etc.) pour évaluer les performances du modèle.
J'ai vu que la validation croisée imbriquée (qu'elle soit répétée ou stratifiée) a été utilisée dans le cadre d'un petit ensemble de données, c'est-à-dire pour générer des performances de modèle généralisées tout en optimisant la sélection des paramètres. Ma question est, comment puis-je obtenir les meilleurs hyperparamètres en validation croisée imbriquée (répétée / non répétée)? Je suis intéressé à faire cela dans scikit-learn, si possible. Je suis un peu confus sur la façon de le faire.
J'ai lu plusieurs ressources mais aucune ne m'a donné la réponse définitive à cette question: