Sélection du modèle de série chronologique: AIC vs SSE hors échantillon et leur équivalence

L'AIC est fréquemment recommandé comme critère pour comparer les modèles de prévision de séries chronologiques. Voir par exemple ceci dans le contexte des modèles de régression dynamique :

L'AIC peut être calculé pour le modèle final et cette valeur peut être utilisée pour déterminer les meilleurs prédicteurs. C'est-à-dire que la procédure doit être répétée pour tous les sous-ensembles de prédicteurs à prendre en considération et le modèle avec la valeur AICc la plus basse sélectionnée.

Pourquoi ne pas comparer les modèles en fonction de leurs performances hors échantillon? (par exemple, choisir le modèle avec l'ESS la plus faible dans les prévisions hors échantillon). J'ai lu plusieurs manuels et sites Web sur les prévisions de séries chronologiques et je n'ai pas trouvé cette discussion. Le plus proche que j'ai obtenu était cette entrée de blog sur les faits et les erreurs de l'AIC :

L'AIC n'est pas vraiment une mesure «dans l'échantillon». Oui, il est calculé à l'aide des données d'entraînement. Mais asymptotiquement, la minimisation de l'AIC est équivalente à la minimisation de la MSE de validation croisée avec sortie pour les données transversales, et équivalente à la minimisation de la MSE de prévision en une étape hors échantillon pour les modèles de séries chronologiques. Cette propriété est ce qui en fait un critère si attrayant pour la sélection de modèles de prévision.

Dans un exemple sur lequel j'ai travaillé (je n'ai pas pu poster les tracés ici, cependant; j'ai besoin de plus de réputation sur ce site), j'ai essayé les deux approches et la plupart du temps l'AIC et l'ESS hors échantillon ne donnent pas le même résultat. La procédure que j'ai utilisée était la suivante:

J'ai divisé les données en échantillons de formation et de test (à un moment arbitraire; une question à ce sujet ci-dessous)
J'ai estimé les modèles concurrents (ARIMA avec régresseurs externes, modification des paramètres ARIMA et des régresseurs) en utilisant l'échantillon d'entraînement (230 premières périodes; tous les modèles ont le même nombre d'observations, donc AIC est comparable).
Ensuite, j'ai prévu la série pour les mêmes périodes que l'échantillon de test (périodes 231-260).
Pour chaque modèle, j'ai calculé une SSE simple comme où est la valeur observée de la série (échantillon de test) et est la valeur prévue par le modèle. $SSE=\sum_{t=231}^{260}(\widehat{y_t}-y_t)^2$ $y_t$ $\widehat{y_t}$
J'ai comparé le modèle indiqué par AIC (calculé à l'aide des données d'apprentissage) avec le modèle avec l'ESS hors échantillon la plus faible. La plupart du temps, les modèles sélectionnés sont différents (et au moins visuellement, ceux sélectionnés par SSE fonctionnent mieux).

Si quelqu'un pouvait m'expliquer ce qui se passait derrière cela, je lui en serais très reconnaissant. Je ne suis clairement pas un expert en la matière. J'essaie juste de m'enseigner un peu, alors veuillez m'excuser si j'ai oublié quelque chose d'important dans les manuels que j'ai lus.

Enfin, une question concernant la répartition des données dans les échantillons de formation et de test pour les séries chronologiques. Il me semble qu'il y a quelque chose de fondamentalement différent que d'utiliser la même procédure pour les données transversales. Pour les données transversales, vous pouvez prélever deux échantillons aléatoires de l'ensemble de vos données. Pour les séries chronologiques, cela n'a pas beaucoup de sens. Vous devez donc prendre un point arbitraire pour diviser la série en échantillons d'apprentissage et de test. Le fait est que le meilleur modèle est généralement différent pour chaque point arbitraire. C'est peut-être pourquoi cette approche ne semble pas être fréquemment utilisée. Est-ce la raison pour laquelle l'AIC est préféré pour la sélection des modèles? (Étant donné que "asymptotiquement, la minimisation de l'AIC est ... équivalente à la minimisation du MSE prévisionnel en une étape hors échantillon pour les modèles de séries chronologiques".)

— elikesprogramming
source

Pourquoi ne pas comparer les modèles en fonction de leurs performances hors échantillon?

Bien sûr, vous pouvez le faire. Je suppose que l'avantage de l'AIC est un calcul plus rapide et moins de codage (alors que l'AIC est souvent signalé automatiquement dans le cadre des diagnostics du modèle, la validation croisée pour les séries temporelles peut ne pas être facilement disponible dans votre logiciel préféré).

J'ai essayé les deux approches et la plupart du temps AIC et SSE hors échantillon ne donnent pas le même résultat.

Vous ne semblez pas avoir correctement mis en œuvre la validation croisée. Tout d'abord, vous divisez les données une seule fois alors que vous êtes censé les diviser plusieurs fois. Deuxièmement, vous avez évalué les performances de prévision sur la base d'un essai de prévision de plusieurs horizons différents plutôt que de plusieurs essais de prévision d'un horizon fixe. Peut-être avez-vous donc obtenu la différence entre l'AIC et la validation croisée

Lorsque vous implémentez la validation croisée dans un paramètre de série chronologique, vous pouvez utiliser des fenêtres déroulantes. Vous feriez des observations de à où est la longueur de la fenêtre et rouleriez de 1 à où est la taille de l'échantillon. Vous devez estimer votre modèle dans chaque fenêtre mobile et prévoir une période à venir. Vous devez ensuite collecter ces prévisions et les comparer aux valeurs réelles. Cela vous donnerait une mesure hors échantillon des performances de prévision lors de l'utilisation de la validation croisée dans un paramètre de série chronologique. $t$ $t+m$ $m$ $t$ $T-m-1$ $T$

Voir aussi Hyndman et Athanasopoulos "Prévision: principes et pratique", section 2.5 (faire défiler vers le bas) et Bergmeir et al. "Une note sur la validité de la validation croisée pour évaluer la prédiction des séries chronologiques" (2015, document de travail).

au moins visuellement, les [modèles] sélectionnés par SSE fonctionnent mieux

Il se pourrait que les résidus du modèle n'aient pas tout à fait la distribution présumée ou que le modèle ait eu d'autres défauts invalidant son AIC d'une manière ou d'une autre. C'est l'un des arguments pour lesquels la précision des prévisions hors échantillon pourrait être préférée à l'AIC dans la sélection des modèles.

— Richard Hardy
source

Merci, je ferai une validation croisée comme vous le suggérez et je posterai ce que je trouve. Merci beaucoup

— elikesprogramming