Comparaison de modèles entre un modèle ARIMA et un modèle de régression

8

J'ai vraiment du mal à trouver comment comparer les modèles ARIMA et de régression. Je comprends comment évaluer les modèles ARIMA les uns par rapport aux autres et différents types de modèles de régression (c.-à-d. Régression vs régression dynamique avec erreurs AR) les uns contre les autres, mais je ne vois pas beaucoup de points communs entre le modèle ARIMA et les métriques d'évaluation du modèle de régression.

Les deux seules mesures qu'ils partagent sont le SBC et l'AIC. La sortie ARIMA ne produit ni un chiffre MSE racine ni une statistique r ^ 2. Je ne sais pas trop si l'estimation d'erreur standard d'un modèle ARIMA est directement équivalente (ou comparable) à quoi que ce soit dans les sorties de régression.

Si quelqu'un pouvait m'orienter dans la bonne direction, ce serait formidable, car je suis vraiment confus ici. J'ai l'impression d'essayer de comparer des pommes avec des oranges.

J'utilise SAS en passant pour effectuer cette analyse.

arima model-comparison dynamic-regression

— Brett
source

6

Si l'on exclut les modèles ARIMAX, qui sont ARIMA avec régresseurs, les modèles ARIMA et de régression sont des modèles avec des approches différentes. ARIMA essaie de modéliser la variable uniquement avec des informations sur les valeurs passées de la même variable. Les modèles de régression quant à eux modélisent la variable avec les valeurs des autres variables. Ces approches étant différentes, il est donc naturel que les modèles ne soient pas directement comparables.

D'autre part, puisque les deux modèles tentent de modéliser une variable, ils produisent tous les deux les valeurs modélisées de cette variable. La question de la comparaison des modèles est donc identique à la comparaison des valeurs modélisées aux vraies valeurs. Pour plus d'informations sur la façon de procéder, le septième chapitre des Éléments de l'apprentissage statistique par Hastie et al. est une lecture éclairante.

Mise à jour: Notez que je ne préconise pas de comparer uniquement en ajustement d'échantillon, juste que lorsque les modèles sont différents, la façon naturelle de comparer les modèles est de comparer leurs sorties, sans tenir compte de la façon dont elles ont été obtenues.

— mpiktas
source

1

"D'un autre côté, puisque les deux modèles tentent de modéliser une variable, ils produisent tous les deux les valeurs modélisées de cette variable. La question de la comparaison des modèles est donc identique à la comparaison des valeurs modélisées aux vraies valeurs." <--- Je vais comparer le MSE des valeurs modélisées par rapport aux valeurs vraies sur une partie hors échantillon des données. Cela me semble le mieux de le faire.

— Brett

1

Vous pouvez utiliser le MSE / AIC / BIC du modèle arima et le comparer au MSE / AIC / BIC du modèle de régression. Assurez-vous simplement que le nombre de valeurs ajustées est le même, sinon vous pourriez faire une erreur. Par exemple, si le modèle ARIMA a une structure de retard de disons sp + p (une différence saisonnière d'ordre sp et une structure autorégressive d'ordre p, vous perdez les premiers points de données sp + p et seules les valeurs NOB-SP-P sont réellement ajustées. Si le modèle de régression n'a pas de retard, vous avez des points ajustés NOB ou moins en fonction de votre spécification des valeurs décalées pour les entrées. Il faut donc réaliser que les MSE peuvent ne pas être sur les mêmes valeurs réelles historiques. Une approche serait de calculer le MSE du modèle de régression sur les dernières valeurs NOB-SP-P pour mettre les modèles sur un pied d'égalité. Vous voudrez peut-être à GOOGLE " En conclusion, on ne ferait normalement jamais simplement correspondre un modèle de régression avec des séries temporelles, car il peut s'agir d'informations dans les retards des causales et les retards de la variable dépendante justifiant le STEP-UP de la régression vers un modèle de fonction de transfert aka modèle ARMAX. Si vous n'avez PAS ÉTABLI, une ou plusieurs des hypothèses gauusiennes seraient annulées, ce qui rendrait vos tests F / T dénués de sens et non pertinents. En outre, il peut y avoir des violations de la constance du terme d'erreur nécessitant l'incorporation de changements de niveau / tendances de l'heure locale et une variable d'impulsion ou d'impulsion saisonnière pour rendre le processus d'erreur ayant une "moyenne de 0,0 partout" En conclusion, on ne ferait normalement jamais simplement correspondre un modèle de régression avec des séries temporelles, car il peut s'agir d'informations dans les retards des causales et les retards de la variable dépendante justifiant le STEP-UP de la régression vers un modèle de fonction de transfert aka modèle ARMAX. Si vous n'avez PAS ÉTABLI, une ou plusieurs des hypothèses gauusiennes seraient annulées, ce qui rendrait vos tests F / T dénués de sens et non pertinents. De plus, il peut y avoir des violations de la constance du terme d'erreur nécessitant l'incorporation de changements de niveau / tendances temporelles locales et une variable d'impulsion ou d'impulsion saisonnière pour rendre le processus d'erreur ayant une "moyenne de 0,0 partout" t STEP-UP alors une ou plusieurs des hypothèses Gauusian seraient annulées, rendant vos tests F / T dénués de sens et non pertinents. En outre, il peut y avoir des violations de la constance du terme d'erreur nécessitant l'incorporation de changements de niveau / tendances de l'heure locale et une variable d'impulsion ou d'impulsion saisonnière pour rendre le processus d'erreur ayant une "moyenne de 0,0 partout" t STEP-UP alors une ou plusieurs des hypothèses Gauusian seraient annulées, rendant vos tests F / T dénués de sens et non pertinents. De plus, il peut y avoir des violations de la constance du terme d'erreur nécessitant l'incorporation de changements de niveau / tendances temporelles locales et une variable d'impulsion ou d'impulsion saisonnière pour rendre le processus d'erreur ayant une "moyenne de 0,0 partout"

— IrishStat
source

3

Les valeurs AIC rapportées peuvent également être non comparables car différentes constantes sont omises.

— Rob Hyndman

1

La validation croisée serait probablement bonne ici. Pour ce faire, vous divisez votre ensemble de données en 2 parties. Vous utilisez la première pièce pour ajuster les deux modèles, puis utilisez le modèle ajusté pour prédire la deuxième pièce. Cela peut être justifié comme une approximation d'une approche entièrement bayésienne de la sélection des modèles. Nous avons la probabilité d'un modèle $M_{i}$

p (d_{1} d_{2} . . . d_{N} | M_{i} I) = p (d_{1} | M_{i} I) \times p (d_{2} | d_{1} M_{i} I) \times p (d_{3} | d_{1} d_{2} M_{i} I) \times . .

$p(d_{1}d_{2}...d_{N}|M_{i}I)=p(d_{1}|M_{i}I)\times p(d_{2}|d_{1}M_{i}I)\times p(d_{3}|d_{1}d_{2}M_{i}I)\times..$

. . \times p (d_{N} | d_{1} d_{2} . . . d_{N - 1} M_{i} I)

$..\times p(d_{N}|d_{1}d_{2}...d_{N-1}M_{i}I)$

Ce qui peut être vu heuristiquement comme une séquence de prédictions, puis d'apprentissage des erreurs. Vous prédisez le premier point de données sans formation. Ensuite, vous prédisez le deuxième point de données après avoir découvert le modèle avec le premier. Vous prédisez ensuite le 3e point de données après avoir utilisé les deux premiers pour en savoir plus sur le modèle, etc. Maintenant, si vous avez un ensemble de données suffisamment grand, les paramètres du modèle deviendront bien déterminés au-delà d'une certaine quantité de données, et nous aurons, pour une certaine valeur $k$ :

p (d_{k + 2} | d_{1} . . . . d_{k} d_{k + 1} M_{i} I) \approx p (d_{k + 2} | d_{1} . . . . d_{k} M_{i} I)

$p(d_{k+2}|d_{1}....d_{k}d_{k+1}M_{i}I)\approx p(d_{k+2}|d_{1}....d_{k}M_{i}I)$

Le modèle ne peut plus "apprendre" les paramètres et il ne fait que prédire sur la base du premier $k$ observations. Je choisirais donc $k$ (la taille du premier groupe) pour être suffisamment grand pour que vous puissiez ajuster avec précision le modèle, $20$ - $30$ les points de données par paramètre sont probablement suffisants. Vous souhaitez également choisir $k$ assez grand pour que la dépendance de la $d_{k+1}...d_{N}$ qui est ignoré ne rend pas l'approximation inutile.

Ensuite, j'évaluerais simplement les probabilités de chaque prédiction et prendrais leur rapport, interprété comme un rapport de vraisemblance. Si le rapport est d'environ $1$ , alors aucun des deux modèles n'est particulièrement meilleur que l'autre. S'il est loin de $1$ cela indique alors que l'un des modèles surpasse l'autre. un ratio inférieur à 5 est faible, 10 est fort, 20 très fort et 100, décisif (réciproque correspondante pour les petits nombres).

— probabilitéislogique
source