"Autocorrélation spatiale" signifie différentes choses pour différentes personnes. Un concept général, cependant, est qu’un phénomène observé aux emplacements peut dépendre de manière certaine de (a) covariables, (b) emplacement et (c) de ses valeurs aux emplacements voisins . (Lorsque les définitions techniques varient en fonction du type de données considérées, du "chemin défini" et de ce que signifie "à proximité": toutes doivent être rendues quantitatives pour pouvoir continuer.)z
Pour voir ce qui pourrait se passer, considérons un exemple simple d'un tel modèle spatial pour décrire la topographie d'une région. Laissez l'altitude mesurée en un point être . Un modèle possible est que dépend d'une manière mathématique définie des coordonnées de , que j'écrirai dans cette situation à deux dimensions. Laissant représenter des écarts (hypothétiquement indépendants) entre les observations et le modèle (qui, comme d'habitude, sont supposés avoir une attente nulle), nous pouvons écrirezy(z)yz(z1,z2)ε
y(z)=β0+β1z1+β2z2+ε(z)
pour un modèle de tendance linéaire . La tendance linéaire (représentée par les et ) est un moyen de saisir l’idée que les valeurs proches et , pour close à , devrait tendre à se rapprocher les uns des autres. Nous pouvons même calculer cela en considérant la valeur attendue de la taille de la différence entre et , . Il s'avère que les mathématiques sont beaucoupβ1β2y(z)y(z′)zz′y(z)y(z′)E[|y(z)−y(z′)|]plus simple si nous utilisons une mesure de différence légèrement différente: à la place, nous calculons la différence au carré attendue :
E[(y(z)−y(z′))2]=E[(β0+β1z1+β2z2+ε(z)−(β0+β1z′1+β2z′2+ε(z′)))2]=E[(β1(z1−z′1)+β2(z2−z2)′+ε(z)−ε(z′))2]=E[(β1(z1−z′1)+β2(z2−z2)′)2+2(β1(z1−z′1)+β2(z2−z2)′)(ε(z)−ε(z′))+(ε(z)−ε(z′))2]=(β1(z1−z′1)+β2(z2−z2)′)2+E[(ε(z)−ε(z′))2]
Ce modèle est exempt de toute autocorrélation spatiale explicite, car il ne contient aucun terme reliant directement aux valeurs proches .y(z)y(z′)
Un modèle alternatif, différent, ignore la tendance linéaire et suppose seulement qu'il existe une autocorrélation. Une façon de le faire consiste à utiliser la structure des déviations . Nous pourrions supposer queε(z)
y(z)=β0+ε(z)
et, pour rendre compte de notre anticipation de la corrélation, nous supposerons une sorte de "structure de covariance" pour le . Pour que cela ait un sens spatial, supposons la covariance entre et , égale à parce que a zéro signifie, tend à diminuer à mesure que et deviennent de plus en plus distants. Comme les détails ne comptent pas, appelons simplement cette covariance . Ceci est une autocorrélation spatiale.εε(z)ε(z′)E[ε(z)ε(z′)]εzz′C(z,z′) En effet, la corrélation (habituelle de Pearson) entre et esty(z)y(z′)
ρ(y(z),y(z′))=C(z,z′)C(z,z)C(z′,z′)−−−−−−−−−−−−√.
Dans cette notation, la différence au carré attendue précédemment de pour le premier modèle esty
E[(y(z)−y(z′))2]=(β1(z1−z′1)+β2(z2−z2)′)2+E[(ε(z)−ε(z′))2]=(β1(z1−z′1)+β2(z2−z2)′)2+C1(z,z)+C1(z′,z′)
(en supposant que ) parce que les de différents emplacements ont été supposés indépendants. J'ai écrit au lieu de pour indiquer qu'il s'agit de la fonction de covariance du premier modèle.z≠z′εC1C
Lorsque les covariances de ne varient pas considérablement d'un endroit à l'autre (en fait, elles sont généralement supposées être constantes), cette équation montre que la différence au carré attendue de augmente de façon quadratique avec la séparation entre et . Le montant réel de l'augmentation est déterminé par les coefficients de tendance et .εyzz′β0β1
Voyons quelles sont les différences au carré attendues dans le pour le nouveau modèle, modèle 2:y
E[(y(z)−y(z′))2]=E[(β0+ε(z)−(β0+ε(z′)))2]=E[(ε(z)−ε(z′))2]=E[ε(z)2−2ε(z)ε(z′)+ε(z′)2]=C2(z,z)−2C2(z,z′)+C2(z′,z′).
Encore une fois, cela se comporte de la bonne façon: parce que nous avons pensé que devrait diminuer à mesure que et se séparent davantage, la différence attendue au carré « est en effet va jusqu'à avec l' augmentation de la séparation des lieux.C2(z,z′)zz′y
La comparaison des deux expressions pour dans les deux modèles nous montre que dans le premier modèle joue un rôle mathématiquement identique à dans le deuxième modèle. (Il y a une constante additive qui s'y cache, enterrée dans les différentes significations de , mais cela n'a pas d'importance dans cette analyse.) Ergo , selon le modèle, corrélation spatiale est généralement représenté comme une combinaison d’une tendance et d’une structure de corrélation stipulée pour les erreurs aléatoires.( β 1 ( z 1 - z ' 1 ) + β 2 ( z 2 - z 2 ) ' ) 2 - 2 C 2 ( z , z ' ) C i ( z , z )E[(y(z)−y(z′))2](β1(z1−z′1)+β2(z2−z2)′)2−2C2(z,z′)Ci(z,z)
J'espère maintenant que la réponse à la question est claire: on peut représenter l'idée qui sous-tend la loi de Tobler sur la géographie ("tout est lié à tout le reste, mais les choses plus proches sont plus liées") de différentes manières. Dans certains modèles, la loi de Tobler est correctement représentée en incluant des tendances (ou termes de "dérive") qui sont des fonctions de coordonnées spatiales telles que la longitude et la latitude. Dans d’autres, la loi de Tobler est capturée au moyen d’une structure de covariance non triviale parmi des termes aléatoires additifs (leε) En pratique, les modèles incorporent les deux méthodes. Le choix que vous choisissez dépend de ce que vous voulez accomplir avec le modèle et de votre vision de la manière dont l'autocorrélation spatiale se produit - qu'elle soit impliquée par des tendances sous-jacentes ou reflète des variations que vous souhaitez considérer comme aléatoires. Ni l'un ni l'autre n'a toujours raison et, dans un problème donné, il est souvent possible d'utiliser les deux types de modèles pour analyser les données, comprendre le phénomène et prévoir ses valeurs ailleurs (interpolation).