J'ai une expérience antérieure avec la validation croisée `` normale '' pour le réglage de modèle et je suis légèrement confus par l'application dans les modèles de séries chronologiques.
Je crois comprendre que pour les modèles de séries chronologiques, le corollaire de la validation croisée est la procédure d '«origine ascendante» décrite par Hyndman . Cela a beaucoup de sens pour moi et le code ci-dessous montre l'utilisation de la tsCV
fonction dans R, du blog d' Hydman , pour montrer comment les erreurs diffèrent de CV par rapport à l'ensemble de données en une seule fois.
library(fpp)
e <- tsCV(dj, rwf, drift=TRUE, h=1)
sqrt(mean(e^2, na.rm=TRUE))
## [1] 22.68249
sqrt(mean(residuals(rwf(dj, drift=TRUE))^2, na.rm=TRUE))
## [1] 22.49681
Maintenant, dans ce lien ci-dessus, il indique que le paramètre de dérive est réestimé à chaque nouvelle origine de prévision. Dans un CV «normal», j'aurais une grille de paramètres que j'évaluerais pour chaque pli afin de pouvoir obtenir une moyenne pour déterminer les meilleurs paramètres à utiliser. J'utiliserais ensuite ces «meilleurs» paramètres pour s'adapter à l'ensemble d'entraînement complet et l'utiliser comme mon modèle final pour évaluer sur mon ensemble de test précédemment détenu. Remarque: il s'agit d' une validation croisée imbriquée, donc je ne m'entraîne à aucun moment sur mon jeu de tests.
Ceci est clairement pas le cas de la procédure « d'origine roulant vers l' avant » , où les paramètres sont optimisés pour chaque fois (au moins pour les procédés de R tels que bats
, tbats
, auto.arima
, etc.). Suis-je dans l'erreur de penser à cette méthode en termes de réglage des paramètres du modèle ou comment choisir les paramètres du modèle de série chronologique à définir pour le modèle final qui serait utilisé? Ou le réglage des paramètres n'est-il pas considéré comme un problème avec les modèles de séries chronologiques où l'optimisation semble faire partie de l'ajustement du modèle et le résultat du CV est simplement de dire dans quelle mesure chaque modèle fonctionne globalement? Et que le modèle final construit avec la majorité des données à la fin est le modèle que j'utiliserais?
Je sais que cela peut être reformulé en une question encore plus simple. Après la validation croisée («origine évolutive»), dois-je simplement utiliser le dernier modèle construit (avec le plus grand sur-ensemble comme modèle ajusté final? Ou qu'est-ce qui est suggéré?