Cette réponse décrit une méthode objective pour mesurer les écarts arbitraires entre deux ensembles de données spatiales. Ces écarts peuvent inclure des changements de position, des changements de forme et des caractéristiques présentes dans un ensemble de données mais pas dans un autre. Cette réponse ne pas fournir un moyen pour déterminer qui est « mieux » , parce que cela dépend beaucoup plus que les données et dépend notamment de ce que les données seront utilisées pour.
Contexte
Une bonne base pour un grand nombre de ces mesures repose sur la transformée de distance euclidienne de chaque ensemble de données. Ainsi, chaque jeu de données représente une collection de points dans le plan. Appelons ces collections B pour les traits bleus et R pour les traits rouges.
Pour tout point x dans le plan, la distance euclidienne de transformation d'un ensemble de points A calcule la borne inférieure des distances entre x et A . On peut penser à cette transformation en créant une « surface » dont la hauteur à x est égale à la distance la plus courte de x à A . Ainsi , cette surface présente des vallées , à tous les points de A , où sa hauteur est égale à zéro, et monte à 1: 1 pente loin de A . Il est clair que la transformation de distance détermine à son tour A (ou techniquement sa fermeture métrique , qui pour les jeux de données SIG est la même que A) comme l'ensemble de tous les points à une hauteur de zéro. Ainsi, la transformation de distance capture complètement toutes les informations spatiales de A que le SIG est capable de représenter.
Cette figure montre les transformations de distance de B (à gauche) et R (à droite) en pseudo-relief.
Comparaison de deux ensembles de données
Pour comparer B et R , superposez chacun avec la transformation de distance de l'autre:
Les valeurs de distance sont affichées sous forme de couleurs graduées du bleu (près de 0) au rouge.
La carte de gauche, par exemple, montre les points de B et couleurs selon leurs distances de R . Les rôles de B et R sont inversés dans la carte de droite.
Déjà ceux-ci aident l'œil à faire des comparaisons: chaque carte montre les points d'un ensemble de données et, par son utilisation de la couleur, souligne les points qui sont loin de tout point dans l'autre ensemble de données. Notez que les deux cartes sont nécessaires pour la comparaison, car chacune montre des points non sur l'autre.
Sur les cartes détaillées, la couleur peut être difficile à voir, nous pouvons donc choisir de la flouter un peu pour la présentation ou l'évaluation visuelle:
NB: Les couleurs ne sont pas comparables entre les deux cartes: à l'intérieur de chaque carte, elles sont mises à l'échelle pour montrer la gamme complète des distances sur cette carte.
Analyse statistique des différences
La beauté de cette approche réside dans ce qui peut être fait en post-traitement. En utilisant un raster pour représenter les transformations de distance et leurs superpositions, nous pouvons facilement obtenir des statistiques - locales et globales - pour mesurer les écarts. Par exemple, nous pourrions nous concentrer sur toutes les distances supérieures à un petit seuil et explorer leur distribution de fréquence:
Dans cet histogramme, les barres bleues sont pour les entités bleues, les barres rouges pour les entités rouges. (Notez l'échelle logarithmique sur l'axe horizontal.) Cet histogramme montre les données superposées d'origine, pas les données dérivées floues. Il n'a sélectionné que les distances supérieures à trois pixels dans l'image d'origine.
Ces histogrammes montrent qu'il est beaucoup plus probable que les traits bleus se trouvent loin des traits rouges que l' inverse : les barres bleues sont plus hautes que les rouges et s'étendent sur de plus grandes distances (à droite). L'arsenal complet de statistiques descriptives est désormais disponible pour quantifier les différences entre les deux ensembles de données. Ces statistiques peuvent être appliquées à l'ensemble de la région d'intérêt ou "fenêtrées" dessus pour explorer comment les deux ensembles de données diffèrent selon l'emplacement.
la mise en oeuvre
La plupart des SIG raster fournissent une transformation de distance euclidienne (comme EuclideanDistance dans ArcGIS et r.grow.distance dans GRASS), et tous prennent en charge la superposition (de masquage) simple nécessaire pour effectuer cette analyse. Si vous le souhaitez, le flou peut être effectué avec une moyenne de voisinage ou une convolution du noyau (qui inclut le "flou gaussien" disponible dans tous les logiciels de traitement d'image). La plupart des SIG ne fournissent pas un support adéquat pour l'analyse statistique complète des données raster, mais ils sont bons pour exporter ces données dans des formats lisibles par des logiciels statistiques et mathématiques tels que R
ou Mathematica (qui a fait tous les chiffres ici).