Modèle de régression et autocorrélation spatiale

J'ai utilisé OLS et GWR pour valider les dépendances entre deux bases de données distinctes. Le carré résiduel pour le GWR est de 0,82, ce qui en fait le bon modèle de régression à utiliser pour déterminer la relation entre les deux ensembles de données.

Ce que je voulais savoir, GWR étant une régression locale et OLS étant une régression globale, qui devraient être utilisés où et quand?

De plus, qu'est-ce que cela signifie vraiment si le I de Moran pour le modèle GWR est aléatoire?

— Sam007
source

Quelles sont ces procédures

Bien que l' OLS et le GWR partagent de nombreux aspects de leur formulation statistique, ils sont utilisés à des fins différentes:

OLS modélise formellement une relation globale d'un type particulier. Dans sa forme la plus simple, chaque enregistrement (ou cas) dans l'ensemble de données se compose d'une valeur, x, définie par l'expérimentateur (souvent appelée "variable indépendante"), et d'une autre valeur, y, qui est observée (la "variable dépendante" ). OLS suppose que y est approximativementlié à x d'une manière particulièrement simple: à savoir, il existe des nombres (inconnus) 'a' et 'b' pour lesquels a + b * x sera une bonne estimation de y pour toutes les valeurs de x qui pourraient intéresser l'expérimentateur . La «bonne estimation» reconnaît que les valeurs de y peuvent, et varieront, de n'importe quelle prédiction mathématique parce que (1) elles le font vraiment - la nature est rarement aussi simple qu'une équation mathématique - et (2) y est mesuré avec une certaine Erreur. En plus d'estimer les valeurs de a et b, OLS quantifie également la quantité de variation de y. Cela donne à OLS la capacité d'établir la signification statistique des paramètres a et b.

Voici un ajustement OLS:

entrez la description de l'image ici

GWR est utilisé pour explorer les relations locales . Dans ce cadre, il y a encore (x, y) paires, mais maintenant (1) généralement, les deux x et y sont observés - aucun ne peut être déterminé à l'avance par un expérimentateur - et (2) chaque enregistrement a une localisation spatiale, z . Pour tout emplacement, z (pas nécessairement même où les données sont disponibles), GWR applique l' algorithme OLS aux valeurs de données voisines pour estimer une relation spécifique à l'emplacement entre y et x sous la forme y = a (z) + b (z) *X. La notation "(z)" souligne que les coefficients a et b varient selon les emplacements. En tant que tel, GWR est une version spécialisée des lisseurs pondérés localementdans lequel seules les coordonnées spatiales sont utilisées pour déterminer les quartiers. Sa sortie est utilisée pour suggérer comment les valeurs de x et y se propagent à travers une région spatiale. Il est à noter que, souvent, il n'y a aucune raison de choisir lequel de «x» et de «y» devrait jouer le rôle de variable indépendante et de variable dépendante dans l'équation, mais lorsque vous changez de rôle, les résultats changent ! C'est l'une des nombreuses raisons pour lesquelles le GWR devrait être considéré comme exploratoire - une aide visuelle et conceptuelle à la compréhension des données - plutôt qu'une méthode formelle.

Voici un lissé pondéré localement. Remarquez comment il peut suivre les "ondulations" apparentes dans les données, mais ne passe pas exactement à chaque point. (Il peut être fait pour passer à travers les points, ou pour suivre des mouvements plus petits, en changeant un paramètre dans la procédure, exactement comme GWR peut être fait pour suivre les données spatiales plus ou moins exactement en changeant les paramètres dans sa procédure.)

Lowess

Intuitivement, imaginez OLS comme ajustant une forme rigide (telle qu'une ligne) au nuage de points des paires (x, y) et GWR comme permettant à cette forme de se tortiller arbitrairement.

Choisir entre eux

Dans le cas présent, bien que l'on ne sache pas exactement ce que "deux bases de données distinctes" pourraient signifier, il semble que l'utilisation d'OLS ou de GWR pour "valider" une relation entre elles puisse être inappropriée. Par exemple, si les bases de données représentent des observations indépendantes de la même quantité au même ensemble d'emplacements, alors (1) OLS est probablement inapproprié parce que x (les valeurs dans une base de données) et y (les valeurs dans l'autre base de données) devraient être conçu comme variant (au lieu de penser à x comme fixe et représenté avec précision) et (2) GWR est bien pour explorer la relation entre x et y, mais il ne peut pas être utilisé pour validerquoi que ce soit: il est garanti de trouver des relations, peu importe quoi. De plus, comme indiqué précédemment, les rôles symétriques de "deux bases de données" indiquent que l'une ou l'autre pourrait être choisie comme 'x' et l'autre comme 'y', conduisant à deux résultats GWR possibles qui sont assurément différents.

Voici un lissage localement pondéré des mêmes données, inversant les rôles de x et y. Comparez cela à l'intrigue précédente: notez à quel point l'ajustement global est plus raide et comment il diffère également dans les détails.

Lowess 2

Différentes techniques sont nécessaires pour établir que deux bases de données fournissent les mêmes informations ou pour évaluer leur biais relatif ou leur précision relative. Le choix de la technique dépend des propriétés statistiques des données et du but de la validation. À titre d'exemple, les bases de données de mesures chimiques seront généralement comparées à l'aide de techniques d'étalonnage .

Interpréter le I de Moran

Il est difficile de dire ce que signifie un «I de Moran pour le modèle GWR». Je suppose que la statistique I de Moran peut avoir été calculée pour les résidus d'un calcul de GWR. (Les résidus sont les différences entre les valeurs réelles et ajustées.) Le Moran I est une mesure globale de la corrélation spatiale. S'il est petit, cela suggère que les variations entre les valeurs y et les ajustements GWR à partir des valeurs x ont peu ou pas de corrélation spatiale. Lorsque GWR est "accordé" aux données (cela implique de décider de ce qui constitue réellement un "voisin" de n'importe quel point), une faible corrélation spatiale dans les résidus est à prévoir car GWR exploite (implicitement) toute corrélation spatiale entre les x et y valeurs dans son algorithme.

— whuber
source

Donc, dans GWR, vous avez dit que l'inversion des variables donne des résultats différents, mais celle qui donne un carré résiduel plus élevé ne signifie-t-elle pas qu'elle montre une relation plus forte entre les deux?

— Sam007

Sam, un carré résiduel bas n'indique pas en soi une relation plus forte. En particulier, lorsque vous inversez les rôles de x et y, vous ne pouvez même pas comparer les carrés résiduels - ils sont souvent dans des unités différentes. (Par exemple, l'un peut être une température carrée et l'autre peut être une quantité carrée de précipitations: comment savoir laquelle est la plus basse?) Vous pouvez toujours réduire un carré résiduel en incluant plus de paramètres dans un modèle, même s'ils n'ont pas de sens : aller trop loin dans cette direction est appelé "sur-ajustement". Dans un certain sens, le GWR à courte portée spatiale est une forme de sur-ajustement.

— whuber

Vous pensez peut-être au R au carré, Sam: c'est un rapport. (J'ai compris que le "carré résiduel" était exactement ce qu'il disait: la somme des carrés des résidus. La plupart des logiciels de statistiques rapportent cette statistique avec les valeurs R au carré.) Mais il est toujours dangereux, et généralement faux, de comparer différents modèles (tels que comme y en termes de x contre x en termes de y) en termes de R au carré: voir stats.stackexchange.com/questions/13314 . Parce que le GWR est exploratoire, il est idéal pour trouver des modèles et émettre des hypothèses sur les relations, mais (comme d'habitude, de toute façon), il ne convient pas pour étayer les allégations.

— whuber

WOW, c'était vraiment toutes les statistiques. En fait, la raison pour laquelle je trouve cela difficile, c'est parce que j'ai très peu d'expérience en statistique, donc je ne me fie qu'aux résultats des modèles, sans comprendre ce qu'ils signifient exactement. La plupart des trucs sur le R2 me sont passés par la tête. Pourriez-vous suggérer un bon livre pour débutants pour me lancer et bâtir mes bases en statistiques?

— Sam007

Essayez-les: stats.stackexchange.com/questions/25506 , stats.stackexchange.com/questions/421 et stats.stackexchange.com/questions/7165 .

— whuber

Rsquared ne doit pas être utilisé pour comparer des modèles. Utilisez la vraisemblance du journal ou les valeurs AIC.

Si vos résidus dans le GWR sont aléatoires, ou je suppose qu'ils semblent être aléatoires (pas statistiquement significatifs), vous pourriez avoir un modèle spécifié. Cela suggère au moins que vous n'avez pas de résidus corrélés et devrait suggérer que vous n'avez aucune variable omise.

— Rich H.
source