Pourquoi devez-vous fournir un modèle de variogramme lorsque vous faites du krigeage?

Je suis très nouveau dans les statistiques spatiales et je regarde beaucoup de tutoriels,

Mais je ne comprends pas vraiment pourquoi vous devez fournir un modèle de variogramme lorsque vous krige.

J'utilise le paquet gstat dans R, et voici l'exemple qu'ils donnent:

library(sp)
data(meuse)
coordinates(meuse) = ~x+y
data(meuse.grid)
str(meuse.grid)
gridded(meuse.grid) = ~x+y
m <- vgm(.59, "Sph", 874, .04)
print(m)
# ordinary kriging:
x <- krige(log(zinc)~1, meuse, meuse.grid, model = m)

Quelqu'un peut-il expliquer en quelques lignes pourquoi vous devez d'abord fournir vgm? Et comment définissez-vous les paramètres?

Merci d'avance! Kasper

spatial

— Kasper
source

Pour le krigeage simple, l'estimateur n'est BLEU que si la covariance moyenne et spatiale est connue à l'avance. En krigeage ordinaire, on estime le variogramme à partir des données, puis on fait l'interpolation. Voir la vignette du gstatpackage R des mêmes données de meuse.

— Andy W

Salut Andy, merci pour ton commentaire. J'ai découvert dans la vignette que vous pouvez également krige sans modèle de variogramme. J'ai fait ce qui suit: krige (résidus ~ 1, temp_plot_spatial, y, nmin = 5, nmax = 10), donc krige en ne regardant que 5 voisins minimum et 10 maximum. Est-ce que cela a un sens? Le résultat était plutôt sympa: dropbox.com/s/7lxvfiyfl7ekhb4/…

— Kasper

Je pense que j'ai un problème avec la modélisation du variogramme: que faire si vous supposez que la corrélation n'a rien à voir avec la distance mais avec les voisins les plus proches?

— Kasper

"Et si vous supposez que la corrélation n'a rien à voir avec la distance mais avec les voisins les plus proches?" - ce n'est pas krigeage alors, c'est plus en ligne avec la classification knn. Le code krige(residuals~1 ,temp_plot_spatial, y, nmin=5, nmax=10)estime les variogrammes locaux. Par exemple, vous n'avez pas de variogramme sur l'ensemble de l'espace d'étude, mais estimez un nouveau modèle pour chaque emplacement que vous essayez de prédire. Le modèle local ne saisit alors que les 10 valeurs les plus proches (puisque vous ne spécifiez pas de distance maximale, il doit toujours saisir 10 valeurs, donc il nmindoit être superflu).

— Andy W

Il est alors logique d'estimer les variogrammes locaux. S'ils varient en fonction de certaines fonctionnalités, y compris d'autres prédicteurs dans le modèle est également une option. IDW pourrait être considéré comme le type le plus simple de modèle de krigeage - donc IDW ne devrait pas être mieux que d'estimer réellement le variogramme à partir des données.

— Andy W

Introduction et résumé

La loi de Tobler sur la géographie affirme

Tout est lié à tout le reste, mais les choses proches sont plus liées que les choses éloignées.

Le krigeage adopte un modèle de ces relations dans lesquelles

Les «choses» sont des valeurs numériques à des emplacements sur la surface de la terre (ou dans l'espace), généralement représentées comme un plan euclidien.
Ces valeurs numériques sont supposées être des réalisations de variables aléatoires.
"Relié" est exprimé en termes de moyennes et de covariances de ces variables aléatoires.

(Un ensemble de variables aléatoires associées à des points dans l'espace est appelé «processus stochastique».) Le variogramme fournit les informations nécessaires pour calculer ces covariances.

Qu'est-ce que le krigeage

Le krigeage est précisément la prédiction de choses à des endroits où elles n'ont pas été observées. Pour rendre le processus de prédiction mathématiquement traitable, le krigeage limite les formules possibles à des fonctions linéaires des valeurs observées. Cela rend le problème fini pour déterminer quels devraient être les coefficients. Ceux-ci peuvent être trouvés en exigeant que la procédure de prédiction ait certaines propriétés. Intuitivement, une excellente propriété est que les différences entre le prédicteur et la valeur vraie (mais inconnue) devraient avoir tendance à être petites: c'est-à-dire que le prédicteur doit être précis . Une autre propriété très vantée mais plus discutable est qu'en moyenne le prédicteur doit être égal à la vraie valeur: il doit être précis .

(La raison pour laquelle insister sur une précision parfaite est discutable - mais pas nécessairement mauvaise - est qu'elle rend généralement toute procédure statistique moins précise: c'est-à-dire plus variable. Lorsque vous tirez sur une cible, préférez-vous répartir les coups uniformément autour du bord et frapper rarement le centre ou accepteriez-vous des résultats qui sont concentrés juste à côté, mais pas exactement sur le centre? Le premier est précis mais imprécis tandis que le second est inexact mais précis.)

Ces hypothèses et critères - que les moyennes et les covariances sont des moyens appropriés de quantifier la parenté, qu'une prédiction linéaire fonctionnera et que le prédicteur devrait être aussi précis que possible sous réserve d'être parfaitement exact - conduisent à un système d'équations qui a un solution unique à condition que les covariances aient été spécifiées de manière cohérente . Le prédicteur résultant est ainsi appelé "BLUP": meilleur prédicteur linéaire sans biais.

Où le variogramme entre en jeu

Pour trouver ces équations, il faut opérationnaliser le programme qui vient d'être décrit. Cela se fait en notant les covariances entre le prédicteur et les observations considérées comme des variables aléatoires. L' algèbre des covariances fait que les covariances entre les valeurs observées entrent également dans les équations de Krigeage.

À ce stade, nous atteignons une impasse, car ces covariances sont presque toujours inconnues. Après tout, dans la plupart des applications, nous n'avons observé qu'une seule réalisation de chacune des variables aléatoires: à savoir notre ensemble de données, qui ne constitue qu'un seul numéro à chaque emplacement distinct. Entrez le variogramme: cette fonction mathématique nous indique quelle devrait être la covariance entre deux valeurs quelconques. Il est contraint de veiller à ce que ces covariances soient "cohérentes" (dans le sens où elles ne donneront jamais un ensemble de covariances mathématiquement impossibles: toutes les collections de mesures numériques de "parenté" ne formeront pas de véritables matrices de covariance ). C'est pourquoi un variogramme est essentiel au Kriging.

Références

Parce que la question immédiate a été répondue, je m'arrête ici. Les lecteurs intéressés peuvent apprendre comment les variogrammes sont estimés et interprétés en consultant de bons textes tels que Journel & Huijbregts ' Mining Geostatistics (1978) ou Isaaks & Srivastava's Applied Geostatistics (1989). (Notez que le processus d'estimation introduit deux objets appelés "variogrammes": un variogramme empirique dérivé des données et un variogramme de modèle qui lui est adapté. Toutes les références au "variogramme" dans cette réponse sont au modèle. L'appel à vgmla question renvoie une représentation informatique d'un variogramme de modèle.) Pour une approche plus moderne dans laquelle l'estimation du variogramme et le Krigeage sont combinés de manière appropriée, voir Diggle &Géostatistique basée sur un modèle (2007) (qui est également un manuel étendu pour les Rpackages GeoRet GeoRglm).

commentaires

Par ailleurs, que vous utilisiez le krigeage pour la prédiction ou un autre algorithme, la caractérisation quantitative de la parenté offerte par le variogramme est utile pour évaluer toute procédure de prédiction. Notez que toutes les méthodes d'interpolation spatiale sont des prédicteurs de ce point de vue - et beaucoup d'entre eux sont des prédicteurs linéaires, tels que IDW (Inverse Distance Weighted). Le variogramme peut être utilisé pour évaluer la valeur moyenne et la dispersion (écart-type) de n'importe laquelle des méthodes d'interpolation. Il a donc une applicabilité bien au-delà de son utilisation dans Kriging.

— whuber
source

Merci pour cette réponse détaillée. Je pose la même question que ci-dessus, que se passe-t-il si je ne peux pas faire l'hypothèse que la corrélation spatiale est indépendante de l'emplacement? Est-il exact que la modélisation du variogramme n'est alors pas utile, car je devrais faire un modèle du variogramme pour tous les emplacements? Est-il alors préférable d'utiliser IDW?

— Kasper

Lorsque vous ne pouvez pas supposer une stationnarité de second ordre du processus, plusieurs options incluent (1) la collecte de plusieurs réalisations du processus (quand cela varie avec le temps); (2) estimer les variogrammes sur les sous-régions locales (quand il y a beaucoup de données); et (3) en supposant un modèle paramétrique pour la façon dont le variogramme change avec l'emplacement (comme dans les modèles GARCH pour les processus 1D). Mes derniers commentaires traitent directement de l'inopportunité de se rabattre sur quelque chose comme IDW: que vous puissiez ou non estimer le variogramme, il existe en principe et donc IDW est généralement sous-optimal.

— whuber