Analyse exploratoire des erreurs de prévision spatio-temporelles

13

Les données: J'ai récemment travaillé sur l'analyse des propriétés stochastiques d'un champ spatio-temporel d'erreurs de prévision de production d'énergie éolienne. Formellement, on peut dire que c'est un processus

{(ϵ_{t + h | t}^{p})}_{t = 1 \dots, T; h = 1, \dots, H, p = p_{1}, \dots, p_{n}}

$\left (\epsilon^p_{t+h|t} \right )_{t=1\dots,T;\; h=1,\dots,H,\;p=p_1,\dots,p_n}$ indexé deux fois dans le temps (avec

t

$t$ et

h

$h$ ) et une fois dans l'espace (

p

$p$ ) avec

H

$H$ étant le nombre de temps d'anticipation (équivaut à environ

24

$24$ , régulièrement échantillonnés),

T

$T$ étant le nombre de "heures de prévision" (c'est-à-dire les heures auxquelles la prévision est émise, environ 30000 dans mon cas, régulièrement échantillonnées), et

n

$n$ étant un certain nombre de positions spatiales (non quadrillées, environ 300 dans mon cas). Comme il s'agit d'un processus lié aux conditions météorologiques, j'ai également beaucoup de prévisions météorologiques, d'analyses et de mesures météorologiques qui peuvent être utilisées.

Question: Pouvez-vous me décrire l'analyse exploratoire que vous effectueriez sur ce type de données pour comprendre la nature de la structure d'interdépendance (qui pourrait ne pas être linéaire) du processus afin d'en proposer une modélisation fine.

— Robin Girard
source

c'est une question très intéressante. Est-il possible de jouer au moins avec un sous-ensemble de données anonymisées? Et comment les prévisions ont-elles été générées, quel type de modèle a été utilisé?

— mpiktas

1

@mpiktas merci, vous pouvez penser qu'il a été généré avec une modélisation AR appropriée (une pour chaque parc éolien), cela ne changera pas beaucoup le problème. Désolé, il y a trop de problèmes de confidentialité avec ces données, je ne peux rien vous fournir, même anonymisé ...

— Robin Girard

6

Il me semble que vous disposez de suffisamment de données pour modéliser la dépendance vis-à-vis de l'espace-temps et des influences météorologiques à la fois du biais des erreurs de prévision (c'est-à-dire de la tendance à sur / sous-estimer systématiquement [premier moment]) et à leur variance [deuxième moment].

Pour l'exploration du biais, je ferais juste beaucoup de diagrammes de dispersion, de cartes thermiques ou de diagrammes hexbin. Pour l'exploration de la variabilité, je mettrais juste les erreurs originales au carré, puis je ferais encore beaucoup de diagrammes de dispersion, de cartes thermiques ou de diagrammes hexbin. Ce n'est bien sûr pas entièrement sans problème si vous avez beaucoup de biais, mais cela peut quand même aider à voir des modèles d'hétéroskédasticité influencée par les covariables.

Rmboost $t$ $h$ , splines de produits tensoriels pour des effets tempo-spatiaux ou des interactions fluides d'effets météorologiques, etc.) pour les différents moments et effectuer la sélection de termes en même temps afin d'obtenir un modèle parcimonieux et interprétable. L'espoir serait que les termes de ce modèle soient suffisants pour tenir compte de la structure d'autocorrélation spatio-temporelle des erreurs de prévision, mais vous devriez probablement vérifier les résidus de ces modèles pour l'autocorrélation (c'est-à-dire regarder certains variogrammes et ACF).

— fabians
source

+1 Merci Fabians, vous avez tout à fait raison, le problème n'est pas que je n'ai pas assez de données. Notez que ma question concerne surtout la structure d'interdépendance. Les diagrammes de dispersion, les cartes thermiques et le graphique hexbin sont de bons outils s'ils sont utilisés à bon escient. Je pense que le modèle additif général peut également être très puissant.Il existe un magnifique document de Brillinger fournissant de bons conseils sur la façon d'utiliser GAM.

— robin girard

5

Nous (un collègue et moi) avons finalement écrit un document à ce sujet. Pour résumer les choses, nous avons proposé deux solutions pour quantifier et donner un résumé statistique de la propagation (spatio-temporelle) des erreurs le long du Danemark et des temps d'anticipation.

Dans la première, nous calculons la corrélation entre toutes les paires de parcs éoliens et pour toutes les paires de temps d'anticipation (c'est une fonction de 4 variables). Lorsqu'une paire est fixe, nous avons montré que la fonction de corrélation a un maximum local le long des temps d'anticipation, nous avons dit que c'était de la propagation! L'échelle temporelle associée à une paire de parcs éoliens donnée est donnée par le décalage temporel pour lequel ce maximum local est obtenu. Le tracé, pour toutes les paires de parcs éoliens, des maxima locaux de corrélation, du décalage temporel qui permet d'obtenir cela et du vecteur spatial qui rejoint les parcs éoliens donne le côté droit de la figure 1.

Cela peut être utilisé pour calculer un vecteur de propagation global, c'est-à-dire une sorte de moyenne spatiale des vitesses de propagation entre paires. Une partie de cela est montrée sur le côté gauche de la figure 1, et devinez quelle propagation des erreurs est Ouest-Est au Denamrk (ok ce n'était pas une grosse surprise :)). Nous avons également analysé cela conditionnellement à différentes situations météorologiques afin de montrer la relation entre la propagation et le vent (vitesse, direction).

$t$ $t$ $R^2$

Dans le second cas, nous avons observé que la vitesse de propagation moyenne temporelle a un amplitude similaire à celle obtenue avec la moyenne spatiale dans le premier cas. Si vous voulez regarder ce travail plus au sérieux, le papier est ici .

— Robin Girard
source

+1 Merci pour le partage. (Désolé d'avoir manqué la question lorsqu'elle est apparue à l'origine.) Avez-vous envisagé de tracer des variogrammes croisés par temps d'anticipation? Les plus efficaces ne seraient pas les nuages de variogrammes directionnels lissés traditionnels; utilisez plutôt des tracés bidimensionnels des densités des nuages de variogrammes. Vous pouvez ensuite construire des variogrammes croisés de ceux-ci pour explorer les relations temporelles. Vos résultats de propagation devraient sortir automatiquement d'une telle analyse.

— whuber

@whuber Merci pour le commentaire, je crois à peine que vous avez manqué plus de 2 ou 3 questions sur ce site :). Votre idée avec le variogramme semble liée (je n'ai pas beaucoup l'habitude d'utiliser le variogramme, je crois souvent que tout ce qui peut être formulé avec le variogramme a un équivalent pratique avec des covariances ...), j'y pense.

— Robin Girard

Vous avez raison de dire que dans de nombreuses applications, les covariances sont équivalentes à des variogrammes. Cependant, le nuage de variogrammes fournit à la fois un supplément visuel et conceptuel que travailler uniquement avec des fonctions de covariance ne semble pas offrir - c'est un peu comme regarder des diagrammes de dispersion au lieu de simplement des matrices de corrélation: vous pouvez parfois voir des modèles que les nombres ne révèlent pas clairement .

— whuber