Quelles statistiques sont conservées sous agrégation?


12

Si nous avons une longue série temporelle à haute résolution, avec beaucoup de bruit, il est souvent judicieux d'agréger les données à une résolution inférieure (par exemple, des valeurs quotidiennes à mensuelles) pour mieux comprendre ce qui se passe, en supprimant efficacement le bruit.

J'ai vu au moins un article qui applique ensuite des statistiques aux données agrégées, y compris un pour une régression linéaire sur une variable distincte. Est-ce que c'est valable? J'aurais pensé que le processus de moyenne modifierait un peu le résultat, en raison de la réduction du bruit.r2

En général, certaines statistiques peuvent-elles être appliquées à des données de séries chronologiques agrégées, et d'autres non? Si oui, lesquels? Ceux qui sont des combinaisons linéaires, peut-être?


En relation, voir l' erreur écologique .
Andy W

1
concernant le commentaire de @cbeleites, je pense qu'il y a une réponse théorique ici - une extension de votre suggestion que les combinaisons linéaires sont préservées. Cependant, en termes d'application pratique, il est très difficile de tirer une conclusion générale sur la validité d'une approche, et il faudrait un exemple spécifique.
Jonathan

Réponses:


6

Je pense que la question telle que dans le titre est trop large pour être répondue de manière utile, d'autant plus qu'elle dépendra probablement à la fois de la méthode d'agrégation et de la statistique en question.

  • Cela s'appliquera même à la "moyenne": essayez-vous de préserver la forme et l'intensité du signal (par exemple les filtres Savitzky-Golay), ou essayez-vous de préserver la zone sous le signal (par exemple le loess)?

  • Les statistiques liées au bruit sont évidemment affectées: c'est généralement le but de l'agrégation.

J'ai vu au moins un article qui applique ensuite des statistiques aux données agrégées [...] Est-ce valable? J'aurais pensé que le processus de moyenne modifierait un peu le résultat, en raison de la réduction du bruit.

Cette modification est très probablement le but de l'agrégation.

En général, vous êtes autorisé à faire beaucoup de choses à vos données, mais vous devez

  • dites ce que vous faites (et de préférence aussi pourquoi vous le faites)
  • montrer la qualité du modèle résultant (test avec des données indépendantes)


n


5

OuitXτm

Ouit=α+βX¯t+ut,(1)

X¯t=1mh=0m-1Xtm-h.

tX30(t-1)+1,...,X30t

Ouit=α+βX¯t(w)+ut,(2)

avec

Xt(w)=h=1m-1whXtm-h.

whwh=g(h,α)gα . Ce type de modèle de régression est appelé régression MIDAS (MIxed DAta Sampling).

wh=1m pour estimer et tester les régressions MIDAS où ce test est implémenté).

Dans un paramètre de non-régression, des résultats montrent que l'agrégation peut modifier les propriétés de la série chronologique. Par exemple, si vous agrégez des processus AR (1) qui ont une mémoire à court terme (la corrélation entre deux observations de la série chronologique s'éteint rapidement lorsque la distance entre elles augmente), vous pouvez obtenir un processus avec une mémoire à long terme.

Donc, pour résumer, la validité de l'application des statistiques sur les données agrégées est une question statistique. Selon le modèle, vous pouvez construire une hypothèse qu'il s'agisse d'une application valide ou non.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.