Pourquoi l'inclusion de latitude et de longitude dans un GAM explique-t-elle l'autocorrélation spatiale?

60

J'ai produit des modèles additifs généralisés pour la déforestation. Pour prendre en compte l'autocorrélation spatiale, j'ai inclus latitude et longitude en tant que terme d'interaction lissé (c'est-à-dire s (x, y)).

Je me suis basé sur la lecture de nombreux articles dans lesquels les auteurs disaient "pour rendre compte de l'autocorrélation spatiale, les coordonnées des points étaient incluses sous forme de termes lissés", mais elles n'ont jamais expliqué pourquoi cela l'explique réellement. C'est assez frustrant. J'ai lu tous les livres que je peux trouver sur les GAM dans l'espoir de trouver une réponse, mais la plupart (par exemple, les modèles additifs généralisés, une introduction avec R, SN Wood) abordent simplement le sujet sans expliquer.

J'apprécierais vraiment si quelqu'un pouvait expliquer POURQUOI l'inclusion de comptes de latitude et de longitude pour l'autocorrélation spatiale, et ce que signifie "comptabilité" pour cela - est-ce simplement suffisant pour l'inclure dans le modèle, ou si vous comparez un modèle avec s (x, y) et un modèle sans? Et la déviance expliquée par le terme indique-t-elle l'étendue de l'autocorrélation spatiale?

— gisol
source

Si cela est pertinent, j'ai utilisé la fonction 'bam' du paquetage 'mgcv' dans R.

— gisol le

De plus, j'ai testé l'autocorrélation spatiale avec Moran's I.

— gisol

Possibilité de dupliquer Peut-on utiliser une fonction spline des coordonnées spatiales pour contrôler l’autocorrélation spatiale?

— Macro

3

Étant donné les réponses fournies, nous pourrions signaler les autres liens Q @Macro comme un doublon de celui-ci, afin que les personnes qui y croiseraient puissent voir les réponses ici, en particulier celle de whuber.

— Réintégrer Monica - G. Simpson le

+1 @GavinSimpson - à propos, notez que vous avez le pouvoir de voter avec des votes serrés, ce qui entraînera la fusion des deux questions.

— Macro

38

La principale question dans tout modèle statistique concerne les hypothèses qui sous-tendent toute procédure d'inférence. Dans le type de modèle que vous décrivez, les résidus sont supposés indépendants. S'ils ont une dépendance spatiale et que cela n'est pas modélisé dans la partie systématique du modèle, les résidus de ce modèle présenteront également une dépendance spatiale ou, en d'autres termes, ils seront autocorrélés dans l'espace. Une telle dépendance invaliderait la théorie qui produit des valeurs p à partir de statistiques de test dans le GAM, par exemple; vous ne pouvez pas faire confiance aux valeurs-p car elles ont été calculées en supposant l'indépendance.

Vous disposez de deux options principales pour gérer ces données. i) modéliser la dépendance spatiale dans la partie systématique du modèle, ou ii) assouplir l'hypothèse d'indépendance et estimer la corrélation entre les résidus.

i) est ce qui est tenté en incluant un lissage des emplacements spatiaux dans le modèle. ii) nécessite l'estimation de la matrice de corrélation des résidus souvent lors de l'ajustement du modèle à l'aide d'une procédure telle que les moindres carrés généralisés. La qualité de la dépendance spatiale dépendra de la nature et de la complexité de la dépendance spatiale et de la facilité avec laquelle elle peut être modélisée.

En résumé, si vous pouvez modéliser la dépendance spatiale entre les observations, les résidus sont plus susceptibles d'être des variables aléatoires indépendantes et ne violent donc pas les hypothèses de toute procédure inférentielle.

— Rétablir Monica - G. Simpson
source

Merci pour votre réponse claire Gavin. Qu'est-ce qui différencie fondamentalement l'autocorrélation spatiale de tout gradient non inclus dans le modèle? Supposons que votre zone d'étude se trouve sur une colline en pente et que les espèces d'intérêt préfèrent un habitat plus bas à un habitat plus élevé. Ne pas inclure l'élévation dans le modèle laisserait une structure dans les résidus, n'est-ce pas? Est-ce simplement que l'autocorrélation spatiale est (ou a été) oubliée ou pas considérée? (PS est peut-être un mauvais exemple car l'inclusion de lat, long expliquerait aussi cet effet).

— Gisol

4

Oui. Je suppose que dans les exemples que vous avez examinés, la composante spatiale était intéressante et donc modélisée de manière explicite via un lissé de lat / lon ou la composante spatiale était un terme gênant, mais devait être modélisée pour laisser les valeurs résiduelles iid. "composant est mieux modélisé via une variable différente (par exemple, élévation dans votre commentaire) puis un lissage de cette variable serait utilisé à la place des emplacements spatiaux.

— Réintégrer Monica - G. Simpson le

1

Pourquoi lissé? Qu'entend-on exactement par "lissé"?

— Julian

1

@Julian Les valeurs de la réponse sont lissées par rapport aux 2 coordonnées spatiales. Autrement dit, l’ effet spatial est estimé sous la forme d’une fonction 2-D lisse. Par lisse, nous entendons une certaine agitation mesurée par la dérivée seconde intégrée au carré de la spline. Le wiggliness est choisi pour équilibrer l'ajustement et la complexité du modèle. Si vous voulez savoir comment les fonctions lissées (splines) sont formées, il peut être intéressant de poser une question spécifique.

— Réintégrer Monica - G. Simpson

55

"Autocorrélation spatiale" signifie différentes choses pour différentes personnes. Un concept général, cependant, est qu’un phénomène observé aux emplacements peut dépendre de manière certaine de (a) covariables, (b) emplacement et (c) de ses valeurs aux emplacements voisins . (Lorsque les définitions techniques varient en fonction du type de données considérées, du "chemin défini" et de ce que signifie "à proximité": toutes doivent être rendues quantitatives pour pouvoir continuer.) $\mathbf{z}$

Pour voir ce qui pourrait se passer, considérons un exemple simple d'un tel modèle spatial pour décrire la topographie d'une région. Laissez l'altitude mesurée en un point être . Un modèle possible est que dépend d'une manière mathématique définie des coordonnées de , que j'écrirai dans cette situation à deux dimensions. Laissant représenter des écarts (hypothétiquement indépendants) entre les observations et le modèle (qui, comme d'habitude, sont supposés avoir une attente nulle), nous pouvons écrire $\mathbf{z}$ $y(\mathbf{z})$ $y$ $\mathbf{z}$ $(z_1,z_2)$ $\varepsilon$

y (z) = β_{0} + β_{1} z_{1} + β_{2} z_{2} + ε (z)

$y(\mathbf{z}) = \beta_0 + \beta_1 z_1 + \beta_2 z_2 + \varepsilon(\mathbf{z})$

pour un modèle de tendance linéaire . La tendance linéaire (représentée par les et ) est un moyen de saisir l’idée que les valeurs proches et , pour close à , devrait tendre à se rapprocher les uns des autres. Nous pouvons même calculer cela en considérant la valeur attendue de la taille de la différence entre et , . Il s'avère que les mathématiques sont beaucoup $\beta_1$ $\beta_2$ $y(\mathbf{z})$ $y(\mathbf{z}')$ $\mathbf{z}$ $\mathbf{z}'$ $y(\mathbf{z})$ $y(\mathbf{z}')$ $E[|y(\mathbf{z}) - y(\mathbf{z}')|]$ plus simple si nous utilisons une mesure de différence légèrement différente: à la place, nous calculons la différence au carré attendue :

\begin{aligned} E [{(y (z) - y (z^{'}))}^{2}] & = E [{(β_{0} + β_{1} z_{1} + β_{2} z_{2} + ε (z) - (β_{0} + β_{1} z_{1}^{'} + β_{2} z_{2}^{'} + ε (z^{'})))}^{2}] \\ = E [{(β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'} + ε (z) - ε (z^{'}))}^{2}] \\ = E [{(β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'})}^{2} \\ + 2 (β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'}) (ε (z) - ε (z^{'})) \\ + {(ε (z) - ε (z^{'}))}^{2}] \\ = {(β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'})}^{2} + E [{(ε (z) - ε (z^{'}))}^{2}] \end{aligned}

$\eqalign{ E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2] &= E[\left(\beta_0 + \beta_1 z_1 + \beta_2 z_2 + \varepsilon(\mathbf{z}) - \left(\beta_0 + \beta_1 z_1' + \beta_2 z_2' + \varepsilon(\mathbf{z}')\right)\right)^2] \\ &=E[\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)' + \varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=E[\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 \\ &\quad+ 2\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)\\ &\quad+ \left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 + E[\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] }$

Ce modèle est exempt de toute autocorrélation spatiale explicite, car il ne contient aucun terme reliant directement aux valeurs proches . $y(\mathbf{z})$ $y(\mathbf{z}')$

Un modèle alternatif, différent, ignore la tendance linéaire et suppose seulement qu'il existe une autocorrélation. Une façon de le faire consiste à utiliser la structure des déviations . Nous pourrions supposer que $\varepsilon(\mathbf{z})$

y (z) = β_{0} + ε (z)

$y(\mathbf{z}) = \beta_0 + \varepsilon(\mathbf{z})$

et, pour rendre compte de notre anticipation de la corrélation, nous supposerons une sorte de "structure de covariance" pour le . Pour que cela ait un sens spatial, supposons la covariance entre et , égale à parce que a zéro signifie, tend à diminuer à mesure que et deviennent de plus en plus distants. Comme les détails ne comptent pas, appelons simplement cette covariance . Ceci est une autocorrélation spatiale. $\varepsilon$ $\varepsilon(\mathbf{z})$ $\varepsilon(\mathbf{z}')$ $E[\varepsilon(\mathbf{z})\varepsilon(\mathbf{z}')]$ $\varepsilon$ $\mathbf{z}$ $\mathbf{z}'$ $C(\mathbf{z}, \mathbf{z}')$ En effet, la corrélation (habituelle de Pearson) entre et est $y(\mathbf{z})$ $y(\mathbf{z}')$

ρ (y (z), y (z^{'})) = \frac{C (z, z^{'})}{\sqrt{C (z, z) C (z^{'}, z^{'})}} .

$\rho(y(\mathbf{z}), y(\mathbf{z}')) = \frac{C(\mathbf{z}, \mathbf{z}')}{\sqrt{C(\mathbf{z}, \mathbf{z})C(\mathbf{z}', \mathbf{z}')}}.$

Dans cette notation, la différence au carré attendue précédemment de pour le premier modèle est $y$

\begin{aligned} E [{(y (z) - y (z^{'}))}^{2}] & = {(β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'})}^{2} + E [{(ε (z) - ε (z^{'}))}^{2}] \\ = {(β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'})}^{2} + C_{1} (z, z) + C_{1} (z^{'}, z^{'}) \end{aligned}

$\eqalign{ E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2] &= \left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 + E[\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 + C_1(\mathbf{z}, \mathbf{z}) + C_1(\mathbf{z}', \mathbf{z}') }$

(en supposant que ) parce que les de différents emplacements ont été supposés indépendants. J'ai écrit au lieu de pour indiquer qu'il s'agit de la fonction de covariance du premier modèle. $\mathbf{z} \ne \mathbf{z}'$ $\varepsilon$ $C_1$ $C$

Lorsque les covariances de ne varient pas considérablement d'un endroit à l'autre (en fait, elles sont généralement supposées être constantes), cette équation montre que la différence au carré attendue de augmente de façon quadratique avec la séparation entre et . Le montant réel de l'augmentation est déterminé par les coefficients de tendance et . $\varepsilon$ $y$ $\mathbf{z}$ $\mathbf{z}'$ $\beta_0$ $\beta_1$

Voyons quelles sont les différences au carré attendues dans le pour le nouveau modèle, modèle 2: $y$

\begin{aligned} E [{(y (z) - y (z^{'}))}^{2}] & = E [{(β_{0} + ε (z) - (β_{0} + ε (z^{'})))}^{2}] \\ = E [{(ε (z) - ε (z^{'}))}^{2}] \\ = E [ε (z)^{2} - 2 ε (z) ε (z^{'}) + ε (z^{'})^{2}] \\ = C_{2} (z, z) - 2 C_{2} (z, z^{'}) + C_{2} (z^{'}, z^{'}) . \end{aligned}

$\eqalign{ E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2] &= E[\left(\beta_0 + \varepsilon(\mathbf{z}) - \left(\beta_0 + \varepsilon(\mathbf{z}')\right)\right)^2] \\ &=E[\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=E[\varepsilon(\mathbf{z})^2 - 2 \varepsilon(\mathbf{z})\varepsilon(\mathbf{z}') + \varepsilon(\mathbf{z}')^2] \\ &=C_2(\mathbf{z}, \mathbf{z}) - 2C_2(\mathbf{z}, \mathbf{z}') + C_2(\mathbf{z}', \mathbf{z}'). }$

Encore une fois, cela se comporte de la bonne façon: parce que nous avons pensé que devrait diminuer à mesure que et se séparent davantage, la différence attendue au carré « est en effet va jusqu'à avec l' augmentation de la séparation des lieux. $C_2(\mathbf{z}, \mathbf{z}')$ $\mathbf{z}$ $\mathbf{z}'$ $y$

La comparaison des deux expressions pour dans les deux modèles nous montre que dans le premier modèle joue un rôle mathématiquement identique à dans le deuxième modèle. (Il y a une constante additive qui s'y cache, enterrée dans les différentes significations de , mais cela n'a pas d'importance dans cette analyse.) Ergo , selon le modèle, corrélation spatiale est généralement représenté comme une combinaison d’une tendance et d’une structure de corrélation stipulée pour les erreurs aléatoires. $E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2]$ $\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2$ $-2C_2(\mathbf{z}, \mathbf{z}')$ $C_i(\mathbf{z}, \mathbf{z})$

J'espère maintenant que la réponse à la question est claire: on peut représenter l'idée qui sous-tend la loi de Tobler sur la géographie ("tout est lié à tout le reste, mais les choses plus proches sont plus liées") de différentes manières. Dans certains modèles, la loi de Tobler est correctement représentée en incluant des tendances (ou termes de "dérive") qui sont des fonctions de coordonnées spatiales telles que la longitude et la latitude. Dans d’autres, la loi de Tobler est capturée au moyen d’une structure de covariance non triviale parmi des termes aléatoires additifs (le $\varepsilon$ ) En pratique, les modèles incorporent les deux méthodes. Le choix que vous choisissez dépend de ce que vous voulez accomplir avec le modèle et de votre vision de la manière dont l'autocorrélation spatiale se produit - qu'elle soit impliquée par des tendances sous-jacentes ou reflète des variations que vous souhaitez considérer comme aléatoires. Ni l'un ni l'autre n'a toujours raison et, dans un problème donné, il est souvent possible d'utiliser les deux types de modèles pour analyser les données, comprendre le phénomène et prévoir ses valeurs ailleurs (interpolation).

— whuber
source

2

+1 - il est agréable de voir le lien entre deux approches pour gérer la dépendance spatiale. Bonne réponse, whuber!

— Macro

Très complet, merci. Il me faudra quelques instants pour réfléchir à tout cela.

— Gisol

6

Si toutes les statistiques étaient de cet ordre, le travail statistique appliqué serait beaucoup plus clair dans le monde. Magnifiquement fait.

— Ari B. Friedman

Dois-je bien comprendre cette réponse lorsque j'en tire le fait que le simple fait d’ajouter des coordonnées X / Y en tant que variables indépendantes à n’importe quel modèle (?!) tiendra compte dans une certaine mesure de l’autocorrélation spatiale?

— Julian

1

@ Julian: Nous parlons de construire différents modèles pour les mêmes données. Si vous incluez les coordonnées X et Y en tant que variables explicatives sans prendre en compte autrement la corrélation spatiale, la "corrélation spatiale" n'a aucun sens pour ce modèle; nous devons donc être prudents quant à ce que nous entendons par "rendre compte de la corrélation spatiale". Mais si nous comprenons votre question pour demander si l’inclusion des coordonnées en tant que variables explicatives peut être aussi efficace que la construction d’un modèle dans lequel la corrélation spatiale est explicitement représentée, ma réponse est «oui, c’est souvent le cas».

— whuber

0

Les autres réponses sont bonnes. Je voulais juste ajouter quelque chose à propos de la "comptabilisation" de l'autocorrélation spatiale. Parfois, cette affirmation est faite plus fortement dans le sens de "la comptabilisation de l'autocorrélation spatiale non expliquée par les covariables".

Cela peut donner une image trompeuse de ce que fait le lissage spatial. Ce n'est pas comme s'il y avait une file d'attente ordonnée dans la probabilité où le patient attend patiemment que les covariables aillent en premier, puis que le serveur lisse épongera les parties «inexpliquées». En réalité, ils ont tous la possibilité d'expliquer les données.

Cet article au titre bien nommé présente la question de manière très claire, même si c’est du point de vue d’un modèle CAR que les principes s’appliquent aux lisses GAM.

L'ajout d'erreurs corrélées spatialement peut gâcher l'effet fixe que vous aimez

La «solution» dans le document consiste à lisser les résidus au lieu de lisser l'espace. Cela aurait pour effet de permettre à vos covariables d'expliquer ce qu'elles peuvent. Bien sûr, il existe de nombreuses applications dans lesquelles ce ne serait pas une solution souhaitable.

— ASeaton
source

-2

La corrélation spatiale est simplement la relation entre les coordonnées x et y et la magnitude de la surface résultante dans l’espace. Ainsi, l'autocorrélation entre les coordonnées peut être exprimée en termes de relation fonctionnelle entre les points voisins.

— Michael Chernick
source

1

Bonjour Michael, merci pour la réponse. Je pense que je comprends ce que vous avez dit, mais il semble que ce soit une description de l’autocorrélation spatiale plutôt que de la façon dont l’inclusion de coordonnées en tient compte - j’ai peut-être oublié votre argument. Par exemple, disons que j'ai 2 modèles, le premier (A) avec un seul terme - la déforestation en fonction de la distance à la capitale, et le second (B) avec la distance jusqu'au terme de la capitale mais aussi les valeurs lat et long terme. Souhaitez-vous répéter votre réponse dans ce contexte? Je pourrais peut-être mieux comprendre.

— Gisol

1

Je pense que s'il n'y a pas de terme d'interaction dans le modèle, l'autocorrélation spatiale entre les points voisins est égale à 0. Lorsque vous avez un terme d'itération, ce terme détermine la valeur des autocorrélations spatiales.

— Michael Chernick

4

@ Michael, l'autocorrélation spatiale signifie que la corrélation entre les points dépend de leur localisation spatiale. Je pense que cette réponse serait plus utile si vous pouviez expliquer pourquoi l’utilisation d’une estimation de fonction régulière, avec les localisations spatiales en tant qu’entrées, en est la cause. En surface, il semble que l’approche de la fonction de lissage modélise la moyenne alors que l’autocorrélation spatiale fait référence à la structure de la covariance . Je sais qu’il existe une relation entre la fonction de covariance d’un processus lisse et l’estimation de fonction lisse, mais, sans établir ce lien, cette réponse semble incomplète.

— Macro

1

@Michael, vous pouvez sûrement voir que faire en sorte que les coordonnées lat / long affectent la moyenne est différent de la modélisation des corrélations entre deux points de l'espace ... Le PO a demandé comment modéliser l'autocorrélation spatiale et je pense qu'une partie de l'argument - la partie explique exactement comment l'ajustement d'une surface spatiale lisse (c'est ce que ferait un modèle additif généralisé dans les coordonnées) modélise l'autocorrélation spatiale. Il existe une relation entre les gams et les fonctions de covariance (je ne sais pas assez pour être plus précis) mais faire appel à cette relation semble être ce qui est requis ici.

— Macro

1

@Marco Je regarderais le livre de Simon Wood si vous le pouvez, car il contient des détails et cite la littérature pertinente sur les lisses comme bits d'effets aléatoires.

— Réintégrer Monica - G. Simpson