Choisir le nombre K se plie en tenant compte de la courbe d'apprentissage
Je voudrais dire que le choix du nombre approprié de plis dépend beaucoup de la forme et de la position de la courbe d'apprentissage, principalement en raison de son impact sur le biais . Cet argument, qui s'étend au CV sans omission, est largement repris de l'ouvrage "Éléments d'apprentissage statistique", chapitre 7.10, page 243.K
Pour des discussions sur l'impact de sur la variance, voir iciK
En résumé, si la courbe d'apprentissage présente une pente considérable à la taille du jeu d'apprentissage donnée, une validation croisée sur cinq ou dix fois surestimera la véritable erreur de prédiction. Si ce biais est un inconvénient dans la pratique, cela dépend de l'objectif. D'autre part, la validation croisée «laissez passer un test» a un biais faible, mais peut avoir une variance élevée.
Une visualisation intuitive utilisant un exemple de jouet
Pour comprendre visuellement cet argument, considérons l'exemple de jouet suivant dans lequel nous ajustons un polynôme de degré 4 à une courbe sinusoïdale bruyante:
Intuitivement et visuellement, nous nous attendons à ce que ce modèle présente des résultats médiocres pour les petits ensembles de données en raison de la suralimentation. Ce comportement est reflété dans la courbe d'apprentissage où nous traçons Erreur quadratique moyenne vs taille de l'entraînement avec 1 écart type. Notez que j'ai choisi de tracer 1 - MSE ici pour reproduire l'illustration utilisée dans ESL page 243±1−±
Discuter de l'argument
Les performances du modèle s'améliorent considérablement lorsque la taille de l'entraînement augmente jusqu'à 50 observations. Augmenter ce nombre à 200 par exemple n'apporte que de petits avantages. Considérons les deux cas suivants:
Si notre ensemble d’entraînement comportait 200 observations, une validation croisée sur fois estimerait la performance sur une taille d’entraînement de 160, ce qui est pratiquement la même que celle pour un ensemble d’entraînement de 200. Ainsi, la validation croisée ne souffrirait pas de beaucoup de biais et augmenterait de à des valeurs plus grandes n'apporteront pas beaucoup d'avantages ( intrigue de gauche )K5K
Cependant, si l'ensemble d'apprentissage comportait observations, une validation croisée sur fois estimait la performance du modèle par rapport à des ensembles d'apprentissage de taille 40, ce qui conduirait à un résultat biaisé de la courbe d'apprentissage. Par conséquent, l'augmentation de dans ce cas aura tendance à réduire le biais. ( intrigue de droite ).5 K505K
[Mise à jour] - Commentaires sur la méthodologie
Vous pouvez trouver le code pour cette simulation ici . L'approche était la suivante:
- Génère 50 000 points à partir de la distribution où la variance réelle de est connueesin(x)+ϵϵ
- Itérer fois (par exemple 100 ou 200 fois). À chaque itération, modifiez le jeu de données en rééchantillonnant points de la distribution d'origine.NiN
- Pour chaque ensemble de données :
i
- Effectuer une validation croisée des plis K pour une valeur deK
- Stocker l'erreur quadratique moyenne (MSE) moyenne sur les plis K
- Une fois que la boucle sur est terminée, calculez la moyenne et l'écart type de la MSE sur les jeux de données pour la même valeur dei KiiK
- Répétez les étapes ci-dessus pour tous les de la plage jusqu’à LOOCV.{ 5 , . . . , N }K{5,...,N}
Une autre approche consiste à ne pas rééchantillonner un nouvel ensemble de données à chaque itération, mais à remanier à chaque fois le même ensemble de données. Cela semble donner des résultats similaires.