Question interessante. Personnellement, je n'ai pas vu cela pour les produits entrant en production, mais je comprends la logique.
Théoriquement, plus votre modèle déployé a vu de données, mieux cela devrait être généralisé. Donc, si vous avez formé le modèle sur l'ensemble complet de données dont vous disposez, il devrait mieux se généraliser qu'un modèle qui ne voit par exemple que des ensembles train / val (par exemple ~ 90%) à partir de l'ensemble de données complet.
Le problème avec cela (et la raison pour laquelle nous divisons les données en trains / val / tests en premier lieu!) Est que nous voulons être en mesure de faire des déclarations statistiques quant à l'exactitude des données invisibles. Dès que nous formons à nouveau un modèle sur toutes les données, il n'est plus possible de faire de telles réclamations.
[Modifier]
Voici une question connexe sur la validation croisée , où la réponse acceptée me fait des remarques similaires et mentionne d'autres façons de faire les choses.
Nous bouclons:
- former un modèle
- → si satisfaisant, passez à l'étape 5
- changer de modèle
- passez à l'étape 1
- évaluer les performances sur l'ensemble de test
- Présenter le modèle avec une précision de test trouvée à l'étape 5
Finalement, si vous parvenez à obtenir un bon score sur l'ensemble de test, vous pouvez prétendre qu'il se généralise bien. Donc, la question de savoir si le recyclage sur l'ensemble de données complet améliorera les performances des futures données invisibles n'est pas strictement quelque chose que vous pouvez tester. La preuve empirique d'une meilleure performance dans d'autres ensembles de problèmes connexes serait la seule source ou orientation au moment où vous devez prendre la décision.
Une vérification de la santé mentale consisterait à tester à nouveau le modèle final recyclé sur l'ensemble de test d'origine; s'attendant à ce qu'il obtienne un score plus élevé que jamais lorsque le modèle n'a vu que l'ensemble train / val, car il a effectivement vu l'ensemble de test pendant la formation. Cela ne me ferait pas croire à 100% que ce modèle final est supérieur dans tous les cas futurs, mais au moins il est aussi bon qu'il peut l'être avec les données fournies.
Peut-être y a-t-il des arguments plus rigoureux contre ce que vous dites (probablement motivés d'un point de vue académique), mais cela semble attrayant pour des applications pratiques!