Quelles sont ces procédures
Bien que l' OLS et le GWR partagent de nombreux aspects de leur formulation statistique, ils sont utilisés à des fins différentes:
- OLS modélise formellement une relation globale d'un type particulier. Dans sa forme la plus simple, chaque enregistrement (ou cas) dans l'ensemble de données se compose d'une valeur, x, définie par l'expérimentateur (souvent appelée "variable indépendante"), et d'une autre valeur, y, qui est observée (la "variable dépendante" ). OLS suppose que y est approximativementlié à x d'une manière particulièrement simple: à savoir, il existe des nombres (inconnus) 'a' et 'b' pour lesquels a + b * x sera une bonne estimation de y pour toutes les valeurs de x qui pourraient intéresser l'expérimentateur . La «bonne estimation» reconnaît que les valeurs de y peuvent, et varieront, de n'importe quelle prédiction mathématique parce que (1) elles le font vraiment - la nature est rarement aussi simple qu'une équation mathématique - et (2) y est mesuré avec une certaine Erreur. En plus d'estimer les valeurs de a et b, OLS quantifie également la quantité de variation de y. Cela donne à OLS la capacité d'établir la signification statistique des paramètres a et b.
Voici un ajustement OLS:
- GWR est utilisé pour explorer les relations locales . Dans ce cadre, il y a encore (x, y) paires, mais maintenant (1) généralement, les deux x et y sont observés - aucun ne peut être déterminé à l'avance par un expérimentateur - et (2) chaque enregistrement a une localisation spatiale, z . Pour tout emplacement, z (pas nécessairement même où les données sont disponibles), GWR applique l' algorithme OLS aux valeurs de données voisines pour estimer une relation spécifique à l'emplacement entre y et x sous la forme y = a (z) + b (z) *X. La notation "(z)" souligne que les coefficients a et b varient selon les emplacements. En tant que tel, GWR est une version spécialisée des lisseurs pondérés localementdans lequel seules les coordonnées spatiales sont utilisées pour déterminer les quartiers. Sa sortie est utilisée pour suggérer comment les valeurs de x et y se propagent à travers une région spatiale. Il est à noter que, souvent, il n'y a aucune raison de choisir lequel de «x» et de «y» devrait jouer le rôle de variable indépendante et de variable dépendante dans l'équation, mais lorsque vous changez de rôle, les résultats changent ! C'est l'une des nombreuses raisons pour lesquelles le GWR devrait être considéré comme exploratoire - une aide visuelle et conceptuelle à la compréhension des données - plutôt qu'une méthode formelle.
Voici un lissé pondéré localement. Remarquez comment il peut suivre les "ondulations" apparentes dans les données, mais ne passe pas exactement à chaque point. (Il peut être fait pour passer à travers les points, ou pour suivre des mouvements plus petits, en changeant un paramètre dans la procédure, exactement comme GWR peut être fait pour suivre les données spatiales plus ou moins exactement en changeant les paramètres dans sa procédure.)
Intuitivement, imaginez OLS comme ajustant une forme rigide (telle qu'une ligne) au nuage de points des paires (x, y) et GWR comme permettant à cette forme de se tortiller arbitrairement.
Choisir entre eux
Dans le cas présent, bien que l'on ne sache pas exactement ce que "deux bases de données distinctes" pourraient signifier, il semble que l'utilisation d'OLS ou de GWR pour "valider" une relation entre elles puisse être inappropriée. Par exemple, si les bases de données représentent des observations indépendantes de la même quantité au même ensemble d'emplacements, alors (1) OLS est probablement inapproprié parce que x (les valeurs dans une base de données) et y (les valeurs dans l'autre base de données) devraient être conçu comme variant (au lieu de penser à x comme fixe et représenté avec précision) et (2) GWR est bien pour explorer la relation entre x et y, mais il ne peut pas être utilisé pour validerquoi que ce soit: il est garanti de trouver des relations, peu importe quoi. De plus, comme indiqué précédemment, les rôles symétriques de "deux bases de données" indiquent que l'une ou l'autre pourrait être choisie comme 'x' et l'autre comme 'y', conduisant à deux résultats GWR possibles qui sont assurément différents.
Voici un lissage localement pondéré des mêmes données, inversant les rôles de x et y. Comparez cela à l'intrigue précédente: notez à quel point l'ajustement global est plus raide et comment il diffère également dans les détails.
Différentes techniques sont nécessaires pour établir que deux bases de données fournissent les mêmes informations ou pour évaluer leur biais relatif ou leur précision relative. Le choix de la technique dépend des propriétés statistiques des données et du but de la validation. À titre d'exemple, les bases de données de mesures chimiques seront généralement comparées à l'aide de techniques d'étalonnage .
Interpréter le I de Moran
Il est difficile de dire ce que signifie un «I de Moran pour le modèle GWR». Je suppose que la statistique I de Moran peut avoir été calculée pour les résidus d'un calcul de GWR. (Les résidus sont les différences entre les valeurs réelles et ajustées.) Le Moran I est une mesure globale de la corrélation spatiale. S'il est petit, cela suggère que les variations entre les valeurs y et les ajustements GWR à partir des valeurs x ont peu ou pas de corrélation spatiale. Lorsque GWR est "accordé" aux données (cela implique de décider de ce qui constitue réellement un "voisin" de n'importe quel point), une faible corrélation spatiale dans les résidus est à prévoir car GWR exploite (implicitement) toute corrélation spatiale entre les x et y valeurs dans son algorithme.