Comment modéliser les données de température chronologiques sur plusieurs sites en fonction des données sur un site?

8

Je suis novice dans l'analyse des séries chronologiques et j'apprécierais toute suggestion sur la meilleure façon d'aborder le problème de régression des séries chronologiques suivant: j'ai des mesures de température horaires à environ 20 emplacements sur un site sur trois ans, ainsi que des informations auxiliaires statiques (pente, élévation, aspect, couverture de la canopée). Le site a une superficie de plusieurs hectares et les appareils d'enregistrement de la température sont répartis sur le site le long de quelques transects, à des intervalles d'environ 20 à 50 m. À environ 1 km, j'ai des données horaires d'une station météorologique, qui fournit également des mesures de la vitesse du vent, de la direction du vent, de l'humidité, de l'éclairage solaire, etc.

Je voudrais pouvoir prédire la température (min, max, moyenne) sur le site (en général) en utilisant uniquement les données de la station météo; il est en place de façon semi-permanente, alors que les enregistreurs de température sur le site n'étaient en place que depuis 3 ans. Donc, essentiellement, j'ai plusieurs variables indépendantes (température, humidité, vent, etc.) à un endroit (la station météo), mais une seule variable dépendante (température) à plusieurs endroits, chacune ayant également plusieurs attributs invariants dans le temps: pente, élévation, aspect, etc.

Je suis plus intéressé à prédire les bas et les hauts quotidiens sur le site en général, plutôt que les températures horaires à chaque emplacement d'enregistrement de température sur le site. Cependant, ces prévisions horaires seraient certainement utiles.

Mon approche initiale a été de calculer la moyenne, le minimum et le maximum quotidiens à partir des températures sur le site, et de les utiliser comme variables dépendantes dans des régressions linéaires simples, en utilisant les mesures disponibles à la station météorologique comme variables indépendantes. Cela fonctionne assez bien (R2> 0,50 avec 2 prédicteurs), mais semble plutôt trop simpliste pour de nombreuses raisons, et j'imagine qu'il doit y avoir des moyens plus sophistiqués (et puissants) de le faire.

D'une part, je ne fais rien d'explicite sur la nature chronologique des valeurs quotidiennes dans la régression, et bien que la température minimale ou moyenne d'un jour à l'autre ne soit pas aussi corrélée qu'elle l'est d'une heure à la ensuite, je m'interroge sur les problèmes d'indépendance de ces données quotidiennes (ou certainement toutes les heures, si j'essayais de prédire les températures horaires). Deuxièmement, en raison des préoccupations liées à la multiplicité des mesures de température quelque peu corrélées sur le site (elles sont beaucoup plus similaires entre elles que les données des stations météorologiques), j'utilise simplement la moyenne ou la valeur minimale ou maximale de toutes les mesures sur le site. , par rapport à l'inclusion directe des données de chaque emplacement de mesure individuel. Mais cela m'empêche également d'utiliser les informations auxiliaires invariantes dans le temps de chaque emplacement de mesure de la température (pente, élévation, aspect, couverture de la canopée), ce qui expliquera vraisemblablement une bonne partie des différences de températures entre les sites du site. Troisièmement, en raison des inquiétudes concernant la régression dominée par le très fort cycle diurne des températures, je ne regarde que les valeurs quotidiennes plutôt que horaires.

Toute suggestion sur de meilleures façons de procéder (en particulier dans R), ou par où commencer à chercher, serait la plus appréciée! Je me rends compte qu'il y a beaucoup de packages R qui traitent des séries chronologiques, mais j'ai du mal à trouver le meilleur endroit pour commencer avec ce type de problème car aucun des exemples que j'ai vus ne semble vraiment refléter la situation que je suis essayer de modéliser ici.

Mise à jour: en y réfléchissant un peu plus, il n'est pas clair pour moi si les modèles de séries chronologiques sont vraiment appropriés ici parce que je ne suis pas intéressé à prédire ce qui se passera à un moment précis futur. Je m'intéresse plutôt à la façon dont les températures sur le site sont liées aux températures (et à d'autres variables environnementales) à la station météorologique. J'ai pensé que peut-être une analyse des séries temporelles serait utile parce que je craignais que les mesures de température ultérieures ne soient pas suffisamment indépendantes. Certes, la température d'une heure dépend beaucoup de l'heure précédente, mais la dépendance est plus faible pour les données quotidiennes. Dans les deux cas, la corrélation / non-indépendance temporelle des données de séries chronologiques est-elle une préoccupation valable qui devrait être abordée si l'on n'est pas intéressé par une prédiction de séries chronologiques?

J'aurais suggéré quelque chose le long des processus ponctuels . Mais je ne sais pas comment faire exactement, vous pouvez regarder cette thèse pour quelques idées ...

— teucer

1

Vous voudrez peut-être examiner le package GAM dans R, car il peut être adapté pour faire une partie (ou la totalité) de ce que vous recherchez. Le document original ( Hastie & Tibshirani, 1986 ) est disponible via OpenAccess si vous êtes prêt à le lire.

Essentiellement, vous modélisez une variable dépendante unique comme étant une combinaison additive de prédicteurs «lisses». L'une des utilisations typiques est d'avoir des séries temporelles et des retards comme prédicteurs, de lisser ces entrées, puis d'appliquer GAM.

Cette méthode a été largement utilisée pour estimer la mortalité quotidienne en fonction de séries chronologiques environnementales lissées, en particulier les polluants. Ce n'est pas OpenAccess, mais ( Dominici et al., 2000 ) est une superbe référence, et ( Méthodes statistiques pour l'épidémiologie environnementale avec R ) est un excellent livre sur la façon d'utiliser R pour effectuer ce type d'analyse.

— Wesley Burr
source

0

Que vous souhaitiez ou non faire des prévisions, cela n'a rien à voir avec une analyse correcte des séries chronologiques. Les méthodes de séries chronologiques peuvent développer un modèle robuste qui peut être utilisé simplement pour caractériser la relation entre une série dépendante et un ensemble d'entrées suggérées par l'utilisateur (aka série de prédicteurs spécifiés par l'utilisateur) et des variables omises identifiées empiriquement, qu'elles soient déterministes ou stochastiques. leur option peut alors étendre le "signal" dans le futur, c'est-à-dire la prévision avec des incertitudes basées sur l'incertitude des coefficients et l'incertitude des valeurs futures du prédicteur. Or, ces deux types de "séries omises" identifiées empiriquement peuvent être classés comme 1) déterministes et 2) stochastiques. Le premier type est simplement des impulsions, des changements de niveau, Impulsions saisonnières et tendances de l'heure locale, tandis que le deuxième type est représenté par la partie ARIMA de votre modèle final. Lorsque l'on omet une ou plusieurs séries stochastiques de la liste des prédicteurs possibles, l'omission est caractérisée par la composante ARIMA dans votre modèle final. Les modélisateurs de séries chronologiques se réfèrent aux modèles ARIMA comme un «modèle de régression du pauvre» parce que le passé de la série est utilisé comme proxy pour les séries d'entrée stochastiques omises.

— IrishStat
source