Disons qu'un modèle a été formé à la date utilisant les données étiquetées disponibles, divisé en formation et test, c'est-à-dire , test_ {dt1} . Ce modèle est ensuite déployé en production et fait des prédictions sur les nouvelles données entrantes. Certains jours X passent et il y a un tas de données étiquetées qui sont collectées entre dt1 et dt1 + X jours, appelons-le Data_x . Dans mon approche actuelle, je prends des échantillons aléatoires de DATA_x (par exemple pour 80/20 split),
Donc, de = (nouvelles données utilisées pour affiner le modèle existant formé sur ) de = (nouvelles données ajoutées à )
Ce processus de réglage fin s'est répété au fil du temps.
En faisant cela, j'obtiens un ensemble de tests en constante expansion, ainsi que j'empêche de recycler l'ensemble du modèle (essentiellement, je peux jeter les anciennes données comme le modèle en a appris). Le nouveau modèle généré n'est qu'une version affinée de l'ancien.
J'ai quelques questions concernant cette approche:
- Y a-t-il des inconvénients évidents à faire cela?
- Le modèle devra-t-il jamais être complètement recyclé (en oubliant tout ce qui a été appris auparavant et en entraînant le modèle avec de nouveaux trains / essais fractionnés) après un certain temps ou l'approche que j'ai décrite ci-dessus peut-elle continuer indéfiniment?
- Quelle devrait être la condition pour échanger le modèle déployé existant avec le modèle nouvellement affiné?