Lorsque vous utilisez la validation croisée pour sélectionner des modèles (par exemple, un réglage hyperparamètre) et pour évaluer les performances du meilleur modèle, vous devez utiliser une validation croisée imbriquée . La boucle externe sert à évaluer les performances du modèle et la boucle interne à sélectionner le meilleur modèle. le modèle est sélectionné sur chaque ensemble de formation externe (à l'aide de la boucle CV interne) et ses performances sont mesurées sur le jeu de test externe correspondant.
Cela a été discuté et expliqué dans de nombreux fils de discussion (comme par exemple ici Formation avec l'ensemble de données complet après validation croisée?, Voir la réponse de @DikranMarsupial) et me semble tout à fait clair. Faire seulement une validation croisée simple (non imbriquée) pour la sélection du modèle et l'estimation de la performance peut produire une estimation de la performance biaisée positivement. @DikranMarsupial a rédigé un article en 2010 sur exactement ce sujet ( sur le sur-ajustement dans la sélection de modèle et sur le biais de sélection subséquent dans l'évaluation de la performance ) avec la section 4.3 intitulée « Le sur-ajustement dans la sélection de modèle est-il vraiment une préoccupation réelle dans la pratique? - et le papier montre que la réponse est oui.
Tout cela étant dit, je travaille maintenant avec une régression multivariée à arêtes multiples et je ne vois aucune différence entre un CV simple et imbriqué, et un CV imbriqué dans ce cas particulier ressemble donc à une charge de calcul inutile. Ma question est la suivante: dans quelles conditions un CV simple produira-t-il un biais notable qui sera évité avec un CV imbriqué? Quand le CV imbriqué est-il important dans la pratique et quand cela importe-t-il moins? Y at-il des règles de base?
Voici une illustration utilisant mon jeu de données actuel. L'axe horizontal est pour la régression de l'arête. L'axe vertical est une erreur de validation croisée. La ligne bleue correspond à la validation croisée simple (non imbriquée), avec 50 divisions aléatoires entraînement / test 90:10. La ligne rouge correspond à la validation croisée imbriquée avec 50 fractionnements aléatoires d’entraînement / test 90:10, où λ est choisi avec une boucle de validation croisée interne (également 50 fractionnements aléatoires 90:10). Les lignes sont des moyennes sur plus de 50 divisions aléatoires, les ombrages indiquent ± 1 écart-type.
Mise à jour
C'est en fait le cas :-) C'est juste que la différence est minime. Voici le zoom avant:
(J'ai couru toute la procédure plusieurs fois et cela se produit à chaque fois.)
Ma question est la suivante: dans quelles conditions pouvons-nous nous attendre à ce que ce biais soit minuscule et dans quelles conditions ne devrions-nous pas?