J'ai une série chronologique que j'essaie de prévoir, pour laquelle j'ai utilisé le modèle saisonnier ARIMA (0,0,0) (0,1,0) [12] (= fit2). C'est différent de ce que R a suggéré avec auto.arima (R calculé ARIMA (0,1,1) (0,1,0) [12] serait un meilleur ajustement, je l'ai nommé fit1). Cependant, au cours des 12 derniers mois de ma série chronologique, mon modèle (fit2) semble être un meilleur ajustement lorsqu'il est ajusté (il était biaisé de manière chronique, j'ai ajouté la moyenne résiduelle et le nouvel ajustement semble s'ajuster plus étroitement à la série temporelle d'origine). Voici l'exemple des 12 derniers mois et MAPE pour les 12 derniers mois pour les deux ajustements:
La série chronologique ressemble à ceci:
Jusqu'ici tout va bien. J'ai effectué une analyse résiduelle pour les deux modèles, et voici la confusion.
L'acf (resid (fit1)) a fière allure, très blanc-bruyant:
Cependant, le test Ljung-Box ne semble pas bon pour, par exemple, 20 retards:
Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1)
J'obtiens les résultats suivants:
X-squared = 26.8511, df = 19, p-value = 0.1082
À ma connaissance, c'est la confirmation que les résidus ne sont pas indépendants (la valeur de p est trop grande pour rester avec l'hypothèse d'indépendance).
Cependant, pour le lag 1, tout est super:
Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1)
me donne le résultat:
X-squared = 0.3512, df = 0, p-value < 2.2e-16
Soit je ne comprends pas le test, soit il contredit légèrement ce que je vois sur le graphique ACF. L'autocorrélation est ridiculement faible.
Ensuite, j'ai vérifié fit2. La fonction d'autocorrélation ressemble à ceci:
Malgré une autocorrélation aussi évidente à plusieurs premiers retards, le test de Ljung-Box m'a donné de bien meilleurs résultats à 20 retards que fit1:
Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0)
résulte en :
X-squared = 147.4062, df = 20, p-value < 2.2e-16
alors que la simple vérification de l'autocorrélation à lag1, me donne également la confirmation de l'hypothèse nulle!
Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0)
X-squared = 30.8958, df = 1, p-value = 2.723e-08
Suis-je en train de comprendre le test correctement? La valeur de p devrait être de préférence inférieure à 0,05 afin de confirmer l'hypothèse nulle d'indépendance des résidus. Quel ajustement est préférable d'utiliser pour la prévision, ajustement1 ou ajustement2?
Informations supplémentaires: les résidus de fit1 affichent une distribution normale, ceux de fit2 non.
X-squared
) augmente à mesure que les auto-corrélations des échantillons des résidus augmentent (voir sa définition), et sa valeur p est la probabilité d'obtenir une valeur aussi grande ou plus grande que celle observée sous la valeur nulle hypothèse que les véritables innovations sont indépendantes. Par conséquent, une petite valeur p est une preuve contre l' indépendance.
fitdf
), vous testiez donc une distribution chi carré avec zéro degré de liberté.