Nombre minimal d'échantillons pour l'interpolation de krigeage


19

J'obtiens quelques données avec le nombre de spécimens avec une demande pour l'interpoler en utilisant la méthode de krigeage.
Après quelques recherches, il est apparu que les résultats du krigeage (effectués dans ArcGIS Geostatistical Analyst avec des paramètres par défaut) n'étaient pas satisfaisants. Les valeurs interpolées sont très différentes des mesures (en particulier les plus élevées) et la surface ne semble pas fiable. Voici l'image: entrez la description de l'image ici
je suppose que le problème principal est le nombre insuffisant d'échantillons.

Combien de points devons-nous utiliser pour obtenir des résultats fiables?
Ou peut-être que la méthode de krigeage n'est pas appropriée pour de telles valeurs diversifiées?


Vous avez dit que "bien que les gens aient réussi à krigeage aussi peu que sept points de données (dans une monographie de Robert Jernigan publiée par l'US EPA à la fin des années 80), ...". Mais je ne trouve pas cet article. Pouvez-vous donner une adresse ouverte pour cet article? Merci ...
abilici

Réponses:


30

Lorsque vous utilisez des «valeurs par défaut», vous n'êtes pas vraiment en krigeage, vous appliquez simplement l'algorithme de krigeage - qui, comme vous l'avez trouvé, est médiocre lorsqu'il est utilisé avec ces données.

(Je vais monter sur une boîte à savon pour une brève diatribe: à mon avis, le moyen le plus rapide d'obtenir de mauvais résultats avec un programme informatique est d'accepter ses paramètres par défaut. ArcGIS est l'un des environnements les plus riches et les plus puissants pour obtenir de mauvais résultats cette manière. les est d' ordre moral ne pas utiliser le logiciel pour un travail important jusqu'à ce que vous comprenez comment le contrôler. En bas de la caisse à savon maintenant ...)

Pour que le krigeage fonctionne, vous devez effectuer une analyse statistique préliminaire intensive des données connues sous le nom de «variographie». La performance finale dépend des données ainsi que de vos compétences géostatistiques. (Des livres entiers ont été écrits sur la variographie, y compris les séminal Mining Geostatistics de Journel & Huijbregts et Variowin de Yvan Pannatier.) fin des années 1980), et en principe, vous pouvez krige en utilisant seulement deux ou trois points (je l'ai fait pour démontrer l'algorithme ), les règles de base dans la littérature vont d'un minimum de 20 points à 100 points et le consensus semble être d'environ 30 points.

Dans votre cas - bien que vous ne décriviez pas les données - vous avez des problèmes évidents, notamment une distribution très asymétrique et un manque évident de preuve de stationnarité. Celles-ci nécessitent un traitement statistique spécial ou des formes spécialisées de krigeage (comme un modèle linéaire généralisé spatial). Vous n'obtiendrez pas de bons résultats lors du krigeage de ces données tant que vous ne disposerez pas d'une très grande quantité de données.

La légende suggère que vous essayez de créer une grille de densité plutôt que d'interpoler des données: bien que les résultats des deux procédures puissent se ressembler, ils font des choses distinctement différentes et ont des interprétations distinctement différentes. Vous interpolez lorsque les données sont considérées comme des échantillons d'une surface continue hypothétique. L'interpolation prédit les valeurs non échantillonnées. Les exemples standard incluent les mesures d'élévation (qui échantillonnent la surface de la terre) et les mesures de température (qui échantillonnent un "champ de température"). Vous calculez une densité lorsque vous avez des informations complètes sur le montantde quelque chose et vous souhaitez représenter une version lissée de ce montant par unité de surface. (Contrairement à l'interpolation, il n'existe aucune valeur non échantillonnée à prévoir.) L'exemple standard est une densité de population: les données sont des dénombrements de tous les individus dans une zone; le résultat est une carte de la densité de population.


6
Grande réponse @whuber. Cependant, le nombre minimum de points ne dépend-il pas aussi partiellement de l'étendue du domaine spatial et du grain souhaité de la prédiction? Si vous le distillez jusqu'à un problème d'échantillonnage, il devient alors question de capturer la population et la variation spatiale de l'échantillon.
Jeffrey Evans

@Jeffrey C'est en partie le cas. La quantité de données porte sur deux choses: la variance de prédiction du krigeage (qui varie dans le domaine spatial) et la précision avec laquelle le variogramme lui-même peut être estimé. Ce dernier est souvent négligé, surtout dans les traitements traditionnels de krigeage: c'est une sorte d'éléphant dans la pièce. Si vous connaissez le bon variogramme et qu'il a un petit rapport pépite / seuil et une large plage par rapport à l'étendue du domaine spatial, vous pouvez krige avec remarquablement peu de données, surtout si elles échantillonnent correctement la gamme complète des valeurs de données.
whuber

3
Je suis convaincu que toute personne utilisant le krigeage devrait avoir besoin d'un bon cours de géostatistique ou avoir une solide formation en SIG / statistiques. Apprendre à modéliser correctement un semi-variogramme nécessite des compétences.
Mike T

1
La règle d'or que j'ai apprise: 30 points pour le Kriging omnidirectionnel et 100 pour le bidirectionnel.
jareks

1

Il y a deux questions distinctes, premièrement le nombre d'emplacements de données à utiliser pour estimer / modéliser le variogramme et deuxièmement le nombre d'emplacements de données à utiliser dans les équations de krigeage pour interpoler la valeur à un emplacement sans données (ou pour estimer la valeur moyenne sur une région). En supposant que vous utilisez un quartier de recherche en mouvement, plus de 15 à 20 emplacements de données dans le quartier dégraderont probablement les résultats car (1) seuls les emplacements de données les plus proches dans le quartier de recherche auront des poids non nuls, (2) avec plus de données la taille de la matrice à inverser est plus grande et la possibilité d'une matrice mal conditionnée augmente. Le nombre total d'emplacements de données nécessaires pour le krigeage dépend du nombre d'emplacements à interpoler et des modèles spatiaux de ces points ainsi que des emplacements de données. En bref,

En ce qui concerne l'estimation / modélisation du variogramme, c'est un problème très différent, voir par exemple

1991, Myers, DE, Sur l’estimation des variogrammes dans les actes du premier Inter. Conf. Stat. Comp., Cesme, Turquie,

30 mars-2 avril 1987, Vol II, American Sciences Press, 261-281

1987, A. Warrick et DE Myers, Optimization of Sampling Locations for Variogram Calculations Water Resources Research 23, 496-500

Ceux-ci peuvent être téléchargés sur www.u.arizona.edu/~donaldm

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.