Combien de retards utiliser dans le test Ljung-Box d'une série chronologique?


20

Une fois qu'un modèle ARMA est adapté à une série chronologique, il est courant de vérifier les résidus via le test de portemanteau de Ljung-Box (entre autres tests). Le test Ljung-Box renvoie une valeur ap. Il a un paramètre, h , qui est le nombre de retards à tester. Certains textes recommandent d'utiliser h = 20; d'autres recommandent d'utiliser h = ln (n); la plupart ne disent pas ce h à utiliser.

Plutôt que d'utiliser une seule valeur pour h , supposons que je fasse le test de Ljung-Box pour tout h <50, puis je choisis le h qui donne la valeur p minimale. Cette approche est-elle raisonnable? Quels sont les avantages et les inconvénients? (Un inconvénient évident est l'augmentation du temps de calcul, mais ce n'est pas un problème ici.) Y a-t-il de la littérature à ce sujet?

Pour élaborer un peu .... Si le test donne p> 0,05 pour tout h , alors évidemment les séries temporelles (résidus) passent le test. Ma question concerne la façon d'interpréter le test si p <0,05 pour certaines valeurs de h et non pour d'autres valeurs.


1
@ user2875, j'ai supprimé ma réponse. Le fait est que pour les grands h le test n'est pas fiable. La réponse dépend donc vraiment pour quel h , p<0,05 . De plus quelle est la valeur exacte de p ? Si nous diminuons le seuil à 0,01 , le résultat du test change-t-il? Personnellement en cas d'hypothèses contradictoires je cherche d'autres indicateurs que le modèle soit bon ou non. Dans quelle mesure le modèle convient-il? Comment le modèle se compare-t-il aux modèles alternatifs? Le modèle alternatif a-t-il les mêmes problèmes? Pour quelles autres violations le test rejette le nul?
mpiktas

1
@mpiktas, Le test de Ljung-Box est basé sur une statistique dont la distribution est asymptotiquement (lorsque h devient grand) chi carré. Cependant, lorsque h devient grand par rapport à n, la puissance du test diminue à 0. D'où le désir de choisir h suffisamment grand pour que la distribution soit proche du chi carré mais suffisamment petite pour avoir une puissance utile. (Je ne sais pas quel est le risque d'un faux négatif, quand h est petit.)
user2875

@ user2875, c'est la troisième fois que vous modifiez la question. Vous demandez d'abord la stratégie de sélection de h avec la plus petite valeur, puis comment interpréter le test si p<0,05 pour certaines valeurs de h , et maintenant quel est le optimal hà choisir. Les trois questions ont des réponses différentes et peuvent même avoir des réponses différentes selon le contexte du problème particulier.
mpiktas

@mpiktas, les questions sont toutes les mêmes, juste des façons différentes de voir les choses. (Comme indiqué, si p> 0,05 pour tout h, alors nous savons comment interpréter le plus petit p; si nous connaissions le h optimal - nous ne le savons pas - alors nous ne serions pas concernés par le choix du plus petit p.)
user2875

Réponses:


9

La réponse dépend certainement de: Pourquoi essayez-vous réellement d'utiliser le test Q ?

La raison commune est la suivante: avoir plus ou moins confiance en la signification statistique commune de l'hypothèse nulle d'absence d'autocorrélation jusqu'au décalage h (en supposant alternativement que vous avez quelque chose proche d' un faible bruit blanc ) et construire un modèle parcimonieux , ayant aussi peu nombre de paramètres possible.

Habituellement, les données de séries chronologiques ont un schéma saisonnier naturel, de sorte que la règle pratique serait de définir h à deux fois cette valeur. Un autre est l'horizon de prévision, si vous utilisez le modèle pour prévoir les besoins. Enfin, si vous constatez des écarts importants à ces derniers retards, essayez de penser aux corrections (cela pourrait-il être dû à certains effets saisonniers, ou les données n'ont pas été corrigées pour les valeurs aberrantes).

Plutôt que d'utiliser une seule valeur pour h, supposons que je fasse le test de Ljung-Box pour tout h <50, puis je choisis le h qui donne la valeur minimale de p.

C'est un test de signification commun , donc si le choix de h est basé sur les données, alors pourquoi devrais-je me soucier de quelques petits départs (occasionnels?) À un décalage inférieur à h , en supposant qu'il est bien inférieur à n bien sûr (la puissance du test que vous avez mentionné). Cherchant à trouver un modèle simple mais pertinent, je suggère les critères d'information décrits ci-dessous.

Ma question concerne la façon d'interpréter le test si p<0,05 pour certaines valeurs de h et non pour d'autres valeurs.

Cela dépendra donc de la distance du présent. Inconvénients des départs lointains: plus de paramètres à estimer, moins de degrés de liberté, pire pouvoir prédictif du modèle.

Essayez d'estimer le modèle, y compris les parties MA et / ou AR au décalage où le départ se produit ET regardez également l'un des critères d'information (AIC ou BIC selon la taille de l'échantillon), cela vous apporterait plus d'informations sur le modèle le plus parcimonieux. Tous les exercices de prédiction hors échantillon sont également les bienvenus ici.


+1, c'est ce que j'essayais d'exprimer mais je n'ai pas pu :)
mpiktas

8

Supposons que nous spécifions un modèle AR (1) simple, avec toutes les propriétés habituelles,

yt=βyt-1+ut

Notons la covariance théorique du terme d'erreur comme

γjE(utut-j)

Si nous pouvions observer le terme d'erreur, alors l'autocorrélation d'échantillon du terme d'erreur est définie comme

ρ~jγ~jγ~0

γ~j1nt=j+1nutut-j,j=0,1,2 ...

Mais en pratique, nous n'observons pas le terme d'erreur. Ainsi, l'autocorrélation de l'échantillon liée au terme d'erreur sera estimée en utilisant les résidus de l'estimation, comme

γ^j1nt=j+1nu^tu^t-j,j=0,1,2 ...

La statistique Box-Pierce Q (la Ljung-Box Q n'est qu'une version à l'échelle asymptotiquement neutre) est

QBP=nj=1pρ^j2=j=1p[nρ^j]2???χ2(p)

Notre problème est exactement de savoir si peut avoir une distribution asymptotique du chi carré (sous le zéro de non-autocorellation dans le terme d'erreur) dans ce modèle. Pour que cela se produise, chacun de QBP
doit être asymptotiquement normale standard. Un moyen de vérifier cela consiste à examiner sinρ^j a la même distribution asymptotique quenρ^ (qui est construit en utilisant les vraies erreurs, et a donc le comportement asymptotique souhaité sous le nul).nρ~

Nous avons ça

u^t=yt-β^yt-1=ut-(β^-β)yt-1

β est un estimateur convergent. Doncβ^

γ^j1nt=j+1n[ut-(β^-β)yt-1][ut-j-(β^-β)yt-j-1]

=γ~j-1nt=j+1n(β^-β)[utyt-j-1+ut-jyt-1]+1nt=j+1n(β^-β)2yt-1yt-j-1

β^

γ^jpγ~j

This implies that

ρ^jpρ~jpρj

But this does not automatically guarantee that nρ^j converges to nρ~j (in distribution) (think that the continuous mapping theorem does not apply here because the transformation applied to the random variables depends on n). In order for this to happen, we need

nγ^jdnγ~j

(the denominator γ0 -tilde or hat- will converge to the variance of the error term in both cases, so it is neutral to our issue).

We have

nγ^j=nγ~j1nt=j+1nn(β^β)[utytj1+utjyt1]+1nt=j+1nn(β^β)2yt1ytj1

So the question is : do these two sums, multiplied now by n, go to zero in probability so that we will be left with nγ^j=nγ~j asymptotically?

For the second sum we have

1nt=j+1nn(β^β)2yt1ytj1=1nt=j+1n[n(β^β)][(β^β)yt1ytj1]

Since [n(β^β)] converges to a random variable, and β^ is consistent, this will go to zero.

For the first sum, here too we have that [n(β^β)] converges to a random variable, and so we have that

1nt=j+1n[utytj1+utjyt1]pE[utytj1]+E[utjyt1]

The first expected value, E[utytj1] is zero by the assumptions of the standard AR(1) model. But the second expected value is not, since the dependent variable depends on past errors.

So nρ^j won't have the same asymptotic distribution as nρ~j. But the asymptotic distribution of the latter is standard Normal, which is the one leading to a chi-squared distribution when squaring the r.v.

Therefore we conclude, that in a pure time series model, the Box-Pierce Q and the Ljung-Box Q statistic cannot be said to have an asymptotic chi-square distribution, so the test loses its asymptotic justification.

This happens because the right-hand side variable (here the lag of the dependent variable) by design is not strictly exogenous to the error term, and we have found that such strict exogeneity is required for the BP/LB Q-statistic to have the postulated asymptotic distribution.

Here the right-hand-side variable is only "predetermined", and the Breusch-Pagan test is then valid. (for the full set of conditions required for an asymptotically valid test, see Hayashi 2000, p. 146-149).


1
You wrote "But the second expected value is not, since the dependent variable depends on past errors." That's called strict exogeneity. I agree that it's a strong assumption, and you can build AR(p) framework without it, just by using weak exogeneity. This the reason why Breusch-Godfrey test is better in some sense: if the null is not true, then B-L loses power. B-G is based on weak exogeneity. Both tests are not good for some common econometric, applications, see e.g. this Stata's presentation, p. 4/44.
Aksakal

3
@Aksakal Thanks for the reference. The point exactly is that without strict exogeneity, the Box-Pierce/Ljung-Box do not have an asymptotic chi-square distribution, this is what the mathematics above show. Weak exogeneity (which holds in the above model) is not enough for them. This is exactly what the presentation you link to says in p. 3/44.
Alecos Papadopoulos

2
@AlecosPapadopoulos, an amazing post!!! Among the few best ones I have encountered here at Cross Validated. I just wish it would not disappear in this long thread and many users would find and benefit from it in the future.
Richard Hardy

3

Before you zero-in on the "right" h (which appears to be more of an opinion than a hard rule), make sure the "lag" is correctly defined.

http://www.stat.pitt.edu/stoffer/tsa2/Rissues.htm

Quoting the section below Issue 4 in the above link:

"....The p-values shown for the Ljung-Box statistic plot are incorrect because the degrees of freedom used to calculate the p-values are lag instead of lag - (p+q). That is, the procedure being used does NOT take into account the fact that the residuals are from a fitted model. And YES, at least one R core developer knows this...."

Edit (01/23/2011): Here's an article by Burns that might help:

http://lib.stat.cmu.edu/S/Spoetry/Working/ljungbox.pdf


@bil_080, the OP does not mention R, and help page for Box.test in R mentions the correction and has an argument to allow for the correction, although you need to supply it manualy.
mpiktas

@mpiktas, Oops, you're right. I assumed this was an R question. As for the second part of your comment, there are several R packages that use Ljung-Box stats. So, it's a good idea to make sure the user understands what the package's "lag" means.
bill_080

Thanks--I am using R, but the question is a general one. Just to be safe, I was doing the test with the LjungBox function in the portes package, as well as Box.test.
user2875

2

The thread "Testing for autocorrelation: Ljung-Box versus Breusch-Godfrey" shows that the Ljung-Box test is essentially inapplicable in the case of an autoregressive model. It also shows that Breusch-Godfrey test should be used instead. That limits the relevance of your question and the answers (although the answers may include some generally good points).


The trouble with LB test is when autoregressive models have other regressors, i.e. ARMAX not ARM models. OP explicitly states ARMA not ARMAX in the question. Hence, I think that your answer is incorrect.
Aksakal

@Aksakal, I clearly see from Alecos Papadopoulos answer (and comments under it) in the above-mentioned thread that Ljung-Box test is inapplicable in both cases, i.e. pure AR/ARMA and ARX/ARMAX. Therefore, I cannot agree with you.
Richard Hardy

Alecos Papadopoulos's answer is good, but incomplete. It points out to Ljung-Box test's assumption of strict exogeneity but it fails to mention that if you're fine with the assumption, then L-B test is Ok to use. B-G test, which he and I favor over L-B, relies on weak exogeneity. It's better to use tests with weaker assumptions in general, of course. However, even B-G test's assumptions are too strong in many cases.
Aksakal

@Aksakal, The setting of this question is quite definite -- it considers residuals from an ARMA model. The important thing here is, L-B does not work (as shown explicitly in Alecos post in this as well as the above-cited thread) while B-G test does work. Of course, things can happen in other settings (even B-G test's assumptions are too strong in many cases) -- but that is not the concern in this thread. Also, I did not get what the assumption is in your statement if you're fine with the assumption, then L-B test is Ok to use. Is that supposed to invalidate Alecos point?
Richard Hardy

1

Escanciano and Lobato constructed a portmanteau test with automatic, data-driven lag selection based on the Pierce-Box test and its refinements (which include the Ljung-Box test).

The gist of their approach is to combine the AIC and BIC criteria --- common in the identification and estimation of ARMA models --- to select the optimal number of lags to be used. In the introduction of they suggest that, intuitively, ``test conducted using the BIC criterion are able to properly control for type I error and are more powerful when serial correlation is present in the first order''. Instead, tests based on AIC are more powerful against high order serial correlation. Their procedure thus choses a BIC-type lag selection in the case that autocorrelations seem to be small and present only at low order, and an AIC-type lag section otherwise.

The test is implemented in the R package vrtest (see function Auto.Q).


1

The two most common settings are min(20,T1) and lnT where T is the length of the series, as you correctly noted.

The first one is supposed to be from the authorative book by Box, Jenkins, and Reinsel. Time Series Analysis: Forecasting and Control. 3rd ed. Englewood Cliffs, NJ: Prentice Hall, 1994.. However, here's all they say about the lags on p.314: entrez la description de l'image ici

It's not a strong argument or suggestion by any means, yet people keep repeating it from one place to another.

The second setting for a lag is from Tsay, R. S. Analysis of Financial Time Series. 2nd Ed. Hoboken, NJ: John Wiley & Sons, Inc., 2005, here's what he wrote on p.33:

Several values of m are often used. Simulation studies suggest that the choice of m ≈ ln(T ) provides better power performance.

This is a somewhat stronger argument, but there's no description of what kind of study was done. So, I wouldn't take it at a face value. He also warns about seasonality:

This general rule needs modification in analysis of seasonal time series for which autocorrelations with lags at multiples of the seasonality are more important.

Summarizing, if you just need to plug some lag into the test and move on, then you can use either of these setting, and that's fine, because that's what most practitioners do. We're either lazy or, more likely, don't have time for this stuff. Otherwise, you'd have to conduct your own research on the power and properties of the statistics for series that you deal with.

UPDATE.

Here's my answer to Richard Hardy's comment and his answer, which refers to another thread on CV started by him. You can see that the exposition in the accepted (by Richerd Hardy himself) answer in that thread is clearly based on ARMAX model, i.e. the model with exogenous regressors xt:

yt=xtβ+ϕ(L)yt+ut

However, OP did not indicate that he's doing ARMAX, to contrary, he explicitly mentions ARMA:

After an ARMA model is fit to a time series, it is common to check the residuals via the Ljung-Box portmanteau test

One of the first papers that pointed to a potential issue with LB test was Dezhbaksh, Hashem (1990). “The Inappropriate Use of Serial Correlation Tests in Dynamic Linear Models,” Review of Economics and Statistics, 72, 126–132. Here's the excerpt from the paper:

entrez la description de l'image ici

As you can see, he doesn't object to using LB test for pure time series models such as ARMA. See also the discussion in the manual to a standard econometrics tool EViews:

Si la série représente les résidus de l'estimation ARIMA, les degrés de liberté appropriés doivent être ajustés pour représenter le nombre d'autocorrélations moins le nombre de termes AR et MA précédemment estimés. Il convient également de noter que certaines précautions doivent être prises pour interpréter les résultats d'un test de Ljung-Box appliqué aux résidus d'une spécification ARMAX (voir Dezhbaksh, 1990, pour des preuves de simulation sur les performances des échantillons finis du test dans ce contexte)

Oui, vous devez être prudent avec les modèles ARMAX et le test LB, mais vous ne pouvez pas déclarer que le test LB est toujours mauvais pour toutes les séries autorégressives.

MISE À JOUR 2

La réponse d'Alecos Papadopoulos montre pourquoi le test de Ljung-Box nécessite une hypothèse d' exogénéité stricte . Il ne le montre pas dans son article, mais le test de Breusch-Gpdfrey (un autre test alternatif) ne nécessite qu'une faible exogénéité , ce qui est mieux, bien sûr. C'est ce que Greene, Econometrics, 7e éd. dit sur les différences entre les tests, p.923:

La différence essentielle entre les tests de Godfrey – Breusch et de Box – Pierce est l'utilisation de corrélations partielles (contrôlant X et les autres variables) dans la première et des corrélations simples dans la seconde. Dans l'hypothèse nulle, il n'y a pas d'autocorrélation dans εt, et aucune corrélation entreXt et εsen tout état de cause, les deux tests sont donc asymptotiquement équivalents. En revanche, parce qu'elle ne conditionne pasXt , le test de Box – Pierce est moins puissant que le test LM lorsque l'hypothèse nulle est fausse, comme l'intuition pourrait le suggérer.


Je suppose que vous avez décidé de répondre à la question car elle a été renvoyée en haut des fils actifs par ma réponse récente. Curieusement, je soutiens que le test est inapproprié dans le cadre considéré, ce qui rend l'ensemble du fil problématique et les réponses qu'il contient particulièrement. Pensez-vous que ce soit une bonne pratique de publier une autre réponse qui ignore ce problème sans même le mentionner (comme toutes les réponses précédentes)? Ou pensez-vous que ma réponse n'a pas de sens (ce qui justifierait de poster une réponse comme la vôtre)?
Richard Hardy

Merci pour une mise à jour! Je ne suis pas un expert, mais l'argumentation d'Alecos Papadopoulos dans "Testing for autocorrelation: Ljung-Box versus Breusch-Godfrey" et dans les commentaires sous sa réponse suggère que Ljung-Box est en effet inapplicable sur les résidus d'ARMA pur (ainsi que ARMAX). Si le libellé prête à confusion, vérifiez les calculs, cela semble correct. Je pense que c'est une question très intéressante et importante, donc je voudrais vraiment trouver un accord entre nous tous ici.
Richard Hardy

0

... h doit être aussi petit que possible pour préserver la puissance du test LB dans les circonstances. Lorsque h augmente, la puissance diminue. Le test LB est un test terriblement faible; vous devez avoir beaucoup d'échantillons; n doit être ~> 100 pour être significatif. Malheureusement, je n'ai jamais vu de meilleur test. Mais peut-être existe-t-il. Quelqu'un en connaît-il un?

Paul3nt


0

Il n'y a pas de bonne réponse à cela qui fonctionne dans toutes les situations pour les raisons que d'autres ont dit que cela dépendra de vos données.

Cela dit, après avoir essayé de reproduire un résultat dans Stata dans RI, vous pouvez dire que, par défaut, l' implémentation Stata utilise:mjen(n2-2,40). Soit la moitié du nombre de points de données moins 2 ou 40, selon le plus petit des deux.

Tous les défauts sont bien sûr faux, et ce sera certainement faux dans certaines situations. Dans de nombreuses situations, ce n'est peut-être pas un mauvais point de départ.


0

Permettez-moi de vous proposer notre package R hwwntest . Il a mis en œuvre des tests de bruit blanc basés sur des ondelettes qui ne nécessitent aucun paramètre de réglage et ont une bonne taille statistique et une bonne puissance.

De plus, j'ai récemment trouvé "Réflexions sur le test de Ljung-Box" qui est une excellente discussion sur le sujet de Rob Hyndman.

Mise à jour: Compte tenu de la discussion alternative dans ce fil concernant ARMAX, une autre incitation à examiner hwwntest est la disponibilité d'une fonction de puissance théorique pour l'un des tests par rapport à une hypothèse alternative du modèle ARMA (p, q).

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.