J'utilise la bibliothèque VAR de modèles de statistiques de python pour modéliser les données de séries temporelles financières et certains résultats m'ont laissé perplexe. Je sais que les modèles VAR supposent que les données des séries chronologiques sont stationnaires. J'ai ajusté par inadvertance une série non stationnaire de prix de log pour deux titres différents et, de façon surprenante, les valeurs ajustées et les prévisions dans l'échantillon étaient très précises avec des résidus stationnaires relativement insignifiants. Le sur la prévision dans l'échantillon était de 99% et l'écart type de la série résiduelle prévue était d'environ 10% des valeurs prévues.
Cependant, lorsque je fais la différence entre les prix des journaux et que j'adapte cette série chronologique au modèle VAR, les valeurs ajustées et prévues sont loin de la cible, rebondissant dans une fourchette étroite autour de la moyenne. Par conséquent, les résidus font un meilleur travail en prévoyant les rendements logarithmiques que les valeurs ajustées, avec l'écart-type des résidus prévus 15X plus grand que la série de données ajustée une valeur de .007 pour la série de prévisions.
Suis-je en train d'interpréter les ajustements par rapport aux résidus sur le modèle VAR ou de faire une autre erreur? Pourquoi une série chronologique non stationnaire entraînerait-elle des prévisions plus précises qu'une stationnaire basée sur les mêmes données sous-jacentes? J'ai beaucoup travaillé avec les modèles ARMA de la même bibliothèque python et je n'ai rien vu de tel que la modélisation de données d'une seule série.