Je suis novice dans l'analyse des séries chronologiques et j'apprécierais toute suggestion sur la meilleure façon d'aborder le problème de régression des séries chronologiques suivant: j'ai des mesures de température horaires à environ 20 emplacements sur un site sur trois ans, ainsi que des informations auxiliaires statiques (pente, élévation, aspect, couverture de la canopée). Le site a une superficie de plusieurs hectares et les appareils d'enregistrement de la température sont répartis sur le site le long de quelques transects, à des intervalles d'environ 20 à 50 m. À environ 1 km, j'ai des données horaires d'une station météorologique, qui fournit également des mesures de la vitesse du vent, de la direction du vent, de l'humidité, de l'éclairage solaire, etc.
Je voudrais pouvoir prédire la température (min, max, moyenne) sur le site (en général) en utilisant uniquement les données de la station météo; il est en place de façon semi-permanente, alors que les enregistreurs de température sur le site n'étaient en place que depuis 3 ans. Donc, essentiellement, j'ai plusieurs variables indépendantes (température, humidité, vent, etc.) à un endroit (la station météo), mais une seule variable dépendante (température) à plusieurs endroits, chacune ayant également plusieurs attributs invariants dans le temps: pente, élévation, aspect, etc.
Je suis plus intéressé à prédire les bas et les hauts quotidiens sur le site en général, plutôt que les températures horaires à chaque emplacement d'enregistrement de température sur le site. Cependant, ces prévisions horaires seraient certainement utiles.
Mon approche initiale a été de calculer la moyenne, le minimum et le maximum quotidiens à partir des températures sur le site, et de les utiliser comme variables dépendantes dans des régressions linéaires simples, en utilisant les mesures disponibles à la station météorologique comme variables indépendantes. Cela fonctionne assez bien (R2> 0,50 avec 2 prédicteurs), mais semble plutôt trop simpliste pour de nombreuses raisons, et j'imagine qu'il doit y avoir des moyens plus sophistiqués (et puissants) de le faire.
D'une part, je ne fais rien d'explicite sur la nature chronologique des valeurs quotidiennes dans la régression, et bien que la température minimale ou moyenne d'un jour à l'autre ne soit pas aussi corrélée qu'elle l'est d'une heure à la ensuite, je m'interroge sur les problèmes d'indépendance de ces données quotidiennes (ou certainement toutes les heures, si j'essayais de prédire les températures horaires). Deuxièmement, en raison des préoccupations liées à la multiplicité des mesures de température quelque peu corrélées sur le site (elles sont beaucoup plus similaires entre elles que les données des stations météorologiques), j'utilise simplement la moyenne ou la valeur minimale ou maximale de toutes les mesures sur le site. , par rapport à l'inclusion directe des données de chaque emplacement de mesure individuel. Mais cela m'empêche également d'utiliser les informations auxiliaires invariantes dans le temps de chaque emplacement de mesure de la température (pente, élévation, aspect, couverture de la canopée), ce qui expliquera vraisemblablement une bonne partie des différences de températures entre les sites du site. Troisièmement, en raison des inquiétudes concernant la régression dominée par le très fort cycle diurne des températures, je ne regarde que les valeurs quotidiennes plutôt que horaires.
Toute suggestion sur de meilleures façons de procéder (en particulier dans R), ou par où commencer à chercher, serait la plus appréciée! Je me rends compte qu'il y a beaucoup de packages R qui traitent des séries chronologiques, mais j'ai du mal à trouver le meilleur endroit pour commencer avec ce type de problème car aucun des exemples que j'ai vus ne semble vraiment refléter la situation que je suis essayer de modéliser ici.
Mise à jour: en y réfléchissant un peu plus, il n'est pas clair pour moi si les modèles de séries chronologiques sont vraiment appropriés ici parce que je ne suis pas intéressé à prédire ce qui se passera à un moment précis futur. Je m'intéresse plutôt à la façon dont les températures sur le site sont liées aux températures (et à d'autres variables environnementales) à la station météorologique. J'ai pensé que peut-être une analyse des séries temporelles serait utile parce que je craignais que les mesures de température ultérieures ne soient pas suffisamment indépendantes. Certes, la température d'une heure dépend beaucoup de l'heure précédente, mais la dépendance est plus faible pour les données quotidiennes. Dans les deux cas, la corrélation / non-indépendance temporelle des données de séries chronologiques est-elle une préoccupation valable qui devrait être abordée si l'on n'est pas intéressé par une prédiction de séries chronologiques?