J'ai des données historiques sur les ventes d'une boulangerie (quotidiennement, sur 3 ans). Maintenant, je veux construire un modèle pour prédire les ventes futures (en utilisant des fonctionnalités comme le jour de la semaine, les variables météorologiques, etc.).
Comment dois-je diviser l'ensemble de données pour ajuster et évaluer les modèles?
- Doit-il s'agir d'un découpage chronologique train / validation / test?
- Est-ce que je ferais alors un réglage hyperparamétrique avec le train et l'ensemble de validation?
- La validation croisée (imbriquée) est-elle une mauvaise stratégie pour un problème de série chronologique?
EDIT
Voici quelques liens que j'ai rencontrés après avoir suivi l'URL suggérée par @ ene100:
- Rob Hyndman décrivant "l'origine des prévisions glissantes" en théorie et en pratique (avec code R)
- d'autres termes pour l' origine des prévisions glissantes sont «optimisation de marche en avant» ( ici ou ici ), «horizon glissant» ou «origine mobile»
- il semble que ces techniques ne seront pas intégrées dans scikit-learn dans un avenir proche, car «la demande et la séminalité de ces techniques ne sont pas claires» (indiqué ici ).
Et ceci est une autre suggestion pour la validation croisée des séries chronologiques.