Je suis intéressé par la sélection de modèles dans un cadre de séries chronologiques. Pour être concret, supposons que je veuille sélectionner un modèle ARMA à partir d'un pool de modèles ARMA avec différents ordres de décalage. L' intention ultime est la prévision .
La sélection du modèle peut être effectuée par
- validation croisée,
- utilisation de critères d'information (AIC, BIC),
entre autres méthodes.
Rob J. Hyndman fournit un moyen d'effectuer une validation croisée pour les séries chronologiques . Pour des échantillons relativement petits, la taille de l'échantillon utilisée dans la validation croisée peut être qualitativement différente de la taille de l'échantillon d'origine. Par exemple, si la taille de l'échantillon d'origine est de 200 observations, alors on pourrait penser à commencer la validation croisée en prenant les 101 premières observations et en élargissant la fenêtre à 102, 103, ..., 200 observations pour obtenir 100 résultats de validation croisée. De toute évidence, un modèle raisonnablement parcimonieux pour 200 observations peut être trop grand pour 100 observations et donc son erreur de validation sera importante. Ainsi, la validation croisée est susceptible de favoriser systématiquement les modèles trop parcimonieux. Il s'agit d'un effet indésirable en raison de l'inadéquation des tailles d'échantillon .
Une alternative à la validation croisée utilise des critères d'information pour la sélection du modèle. Puisque je me soucie des prévisions, j'utiliserais AIC. Même si AIC est asymptotiquement équivalent à minimiser le MSE prévisionnel en une seule étape hors échantillon pour les modèles de séries chronologiques (selon ce post de Rob J. Hyndman), je doute que cela soit pertinent ici puisque l'échantillon les tailles qui me tiennent à cœur ne sont pas si grandes ...
Question: devrais-je choisir l'AIC sur la validation croisée des séries chronologiques pour les échantillons petits / moyens?
Quelques questions connexes peuvent être trouvées ici , ici et ici .