J'ai une série chronologique quotidienne assez prévisible avec une saisonnalité hebdomadaire. Je peux proposer des prédictions qui semblent assez précises (confirmées par validation croisée) quand il n'y a pas de vacances. Cependant, quand il y a des vacances, j'ai les problèmes suivants:
- J'obtiens des nombres non nuls pour les vacances dans mes prévisions, même si toutes les vacances historiques sont à 0. Ce n'est vraiment pas le problème principal. Le problème est ...
- Étant donné que le traitement qui ne se produit pas les jours fériés "déborde" sur les jours qui suivent les jours fériés, une simple variable muette ne le coupe pas, car ces valeurs aberrantes semblent être innovantes à court terme. S'il n'y avait pas de saisonnalité hebdomadaire, je pourrais peut-être arriver à une estimation pour la distribution des données non traitées sur les vacances au cours des cinq jours environ suivant les vacances (comme suggéré dans Comment créer des variables reflétant l'impact du plomb et du retard des vacances / effets de calendrier dans une analyse chronologique? ). Cependant, la répartition du "débordement" dépend du jour de la semaine où se déroule le jour férié et du fait que le jour férié soit Noël ou Thanksgiving, où les commandes sont passées à un taux inférieur au reste de l'année.
Voici quelques instantanés de ma validation croisée qui montrent le résultat prévu (bleu) par rapport au résultat réel (rouge) pour les vacances qui apparaissent à différents jours de la semaine:
Je crains également que l'impact de Noël dépend du jour de la semaine où il tombe, et je n'ai que six ans environ de données historiques.
Quelqu'un a-t-il des suggestions sur la façon de traiter ces types de valeurs aberrantes innovantes dans le contexte des prévisions? (Malheureusement, je ne peux partager aucune donnée)