J'ai trouvé deux définitions dans la littérature pour le temps d'autocorrélation d'une série chronologique faiblement stationnaire:
où est l'autocorrélation au décalage.
Une application du temps d'autocorrélation est de trouver la "taille effective de l'échantillon": si vous avez observations d'une série chronologique, et que vous connaissez son temps d'autocorrélation , alors vous pouvez prétendre que vous avez
échantillons indépendants au lieu de échantillons corrélés afin de trouver la moyenne. L'estimation de partir des données n'est pas anodine, mais il existe plusieurs façons de le faire (voir Thompson 2010 ).
La définition sans valeurs absolues, , semble plus courante dans la littérature; mais il admet la possibilité de . Utilisation de R et du package "coda":
require(coda)
ts.uncorr <- arima.sim(model=list(),n=10000) # white noise
ts.corr <- arima.sim(model=list(ar=-0.5),n=10000) # AR(1)
effectiveSize(ts.uncorr) # Sanity check
# result should be close to 10000
effectiveSize(ts.corr)
# result is in the neighborhood of 30000... ???
La fonction "effectiveSize" dans "coda" utilise une définition du temps d'autocorrélation équivalente à , ci-dessus. Il existe d'autres packages R qui calculent la taille effective de l'échantillon ou le temps d'autocorrélation, et tous ceux que j'ai essayés donnent des résultats cohérents avec ceci: qu'un processus AR (1) avec un coefficient AR négatif a des échantillons plus efficaces que les corrélés des séries chronologiques. Cela semble étrange.
Évidemment, cela ne peut jamais se produire dans la définition du temps d'autocorrélation.
Quelle est la définition correcte du temps d'autocorrélation? Y a-t-il un problème avec ma compréhension des tailles d'échantillons efficaces? Le résultat indiqué ci-dessus semble être incorrect ... que se passe-t-il?