J'ai une question concernant le processus de validation croisée. Je suis au milieu d'un cours de Machine Learning sur la Cursera. L'un des sujets concerne la validation croisée. J'ai trouvé ça un peu difficile à suivre. Je sais pourquoi nous avons besoin de CV parce que nous voulons que nos modèles fonctionnent bien sur les données futures (inconnues) et que CV empêche le sur-ajustement. Cependant, le processus lui-même prête à confusion.
Ce que j'ai compris, c'est que je divise les données en 3 sous-ensembles: formation, validation et test. Former et Valider consiste à trouver la complexité optimale d'un modèle. Ce que je ne comprends pas, c'est le troisième sous-ensemble. Je comprends que je prends un certain nombre de fonctionnalités pour le modèle, le forme et le valide sur le sous-ensemble de validation et recherche la fonction de coût minimum lorsque je change la structure. Quand je l'ai trouvé, je teste le modèle sur le sous-ensemble Test. Si j'ai déjà trouvé la fonction de coût minimum sur le sous-ensemble de validation, pourquoi devrais-je la tester à nouveau sur le sous-ensemble de test ???
Quelqu'un pourrait-il clarifier cela pour moi?
Merci