Vous avez en effet correctement décrit la façon de travailler avec la validation croisée. En fait, vous êtes «chanceux» d'avoir un ensemble de validation raisonnable à la fin, car souvent, la validation croisée est utilisée pour optimiser un modèle, mais aucune validation «réelle» n'est effectuée.
Comme l'a dit @Simon Stelling dans son commentaire, la validation croisée entraînera une baisse des erreurs estimées (ce qui est logique parce que vous réutilisez constamment les données), mais heureusement, c'est le cas pour tous les modèles, donc, sauf catastrophe (c'est-à-dire que les erreurs ne sont réduites que légèrement pour un "mauvais" modèle, et plus pour "le bon" modèle), la sélection du modèle qui fonctionne le mieux sur un critère de validation croisée, sera généralement aussi le meilleur "pour de vrai".
Une méthode qui est parfois utilisée pour corriger quelque peu les erreurs les plus faibles, en particulier si vous recherchez des modèles parcimonieux, consiste à sélectionner le modèle le plus petit / la méthode la plus simple pour laquelle l'erreur de validation croisée se situe dans une SD à partir de l'optimum (de validation croisée). Comme la validation croisée elle-même, il s'agit d'une heuristique, elle doit donc être utilisée avec précaution (si cela est une option: tracez vos erreurs par rapport à vos paramètres de réglage: cela vous donnera une idée si vous avez des résultats acceptables)
Compte tenu du biais à la baisse des erreurs, il est important de ne pas publier les erreurs ou autres mesures de performance de la validation croisée sans mentionner que celles-ci proviennent de la validation croisée (bien que, à vrai dire: j'ai vu trop de publications qui ne mentionnent pas que le la mesure des performances a été obtenue en vérifiant les performances sur l'ensemble de données d'origine --- alors, la mention de la validation croisée donne en fait plus de valeur à vos résultats ). Pour vous, ce ne sera pas un problème, car vous avez un ensemble de validation.
Un dernier avertissement: si l'ajustement de votre modèle se traduit par des concurrents proches, c'est une bonne idée de regarder leurs performances sur votre jeu de validation par la suite, mais ne basez pas votre sélection finale de modèle sur cela: vous pouvez au mieux l'utiliser pour apaiser votre conscience, mais votre modèle "final" doit avoir été choisi avant de regarder l'ensemble de validation.
Par rapport à votre deuxième question: je pense que Simon vous a donné toutes les réponses dont vous avez besoin dans son commentaire, mais pour compléter le tableau: comme souvent, c'est le compromis biais-variance qui entre en jeu. Si vous savez qu'en moyenne, vous obtiendrez le résultat correct (impartialité), le prix est généralement que chacun de vos calculs individuels peut en être assez éloigné (variance élevée). Autrefois, l'impartialité était le nec plus ultra, de nos jours, on a parfois accepté un (petit) biais (donc vous ne savez même pas que la moyenne de vos calculs donnera le bon résultat), si elle entraîne une variance plus faible. L'expérience a montré que l'équilibre est acceptable avec une validation croisée 10 fois. Pour vous, le biais ne serait un problème que pour l'optimisation de votre modèle, puisque vous pouvez ensuite estimer le critère (sans biais) sur l'ensemble de validation. En tant que tel, il y a peu de raisons de ne pas utiliser la validation croisée.