Supposons que j'ai formé plusieurs modèles sur l'ensemble d'entraînement, choisissez le meilleur en utilisant l'ensemble de validation croisée et les performances mesurées sur l'ensemble d'essai. Alors maintenant, j'ai un dernier meilleur modèle. Dois-je le recycler sur toutes mes données disponibles ou sur la solution d'expédition formée uniquement sur le kit de formation? Si ce dernier, alors pourquoi?
MISE À JOUR: Comme l'a noté @ P.Windridge, l'expédition d'un modèle recyclé signifie essentiellement l'expédition d'un modèle sans validation. Mais nous pouvons signaler les performances de l'ensemble de tests et, après cela, recycler le modèle sur des données complètes, en espérant à juste titre que les performances soient meilleures - parce que nous utilisons notre meilleur modèle et plus de données. Quels problèmes peuvent surgir d'une telle méthodologie?