Alternatives robustes au Moran's I

Le I de Moran , une mesure de l'autocorrélation spatiale, n'est pas une statistique particulièrement robuste (il peut être sensible aux distributions asymétriques des attributs des données spatiales).

Quelles sont les techniques les plus robustes pour mesurer l'autocorrélation spatiale? Je suis particulièrement intéressé par les solutions qui sont facilement disponibles / implémentables dans un langage de script comme R. Si les solutions s'appliquent à des circonstances / distributions de données uniques, veuillez les spécifier dans votre réponse.

EDIT : J'élargis la question avec quelques exemples (en réponse aux commentaires / réponses à la question d'origine)

Il a été suggéré que les techniques de permutation (où une distribution d'échantillonnage de Moran I est générée à l'aide d'une procédure de Monte Carlo) offrent une solution robuste. Ma compréhension est qu'un tel test élimine le besoin de faire des hypothèses sur la distribution de Moran I (étant donné que la statistique du test peut être influencée par la structure spatiale de l'ensemble de données) mais, je ne vois pas comment la technique de permutation corrige pour les non-normalement données d'attribut distribuées . J'offre deux exemples: l'un qui démontre l'influence des données asymétriques sur la statistique I locale de Moran, l'autre sur le I global de Moran même sous des tests de permutation.

Je vais utiliser Zhang et al. « s (2008) analyse comme le premier exemple. Dans leur article, ils montrent l'influence de la distribution des données d'attribut sur le Moran local I en utilisant des tests de permutation (9999 simulations). J'ai reproduit les résultats du point chaud des auteurs pour les concentrations de plomb (Pb) (au niveau de confiance de 5%) en utilisant les données d'origine (panneau de gauche) et une transformation logarithmique de ces mêmes données (panneau de droite) dans GeoDa. Des boîtes à moustaches des concentrations de Pb originales et transformées en log sont également présentées. Ici, le nombre de points chauds importants double presque lorsque les données sont transformées; cet exemple montre que la statistique locale est sensible à la distribution des données d'attribut - même en utilisant des techniques de Monte Carlo!

entrez la description de l'image ici

Le deuxième exemple (données simulées) montre l'influence des données asymétriques sur le I global de Moran , même lors de l'utilisation de tests de permutation. Un exemple, dans R , suit:

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

Notez la différence des valeurs P. Les données asymétriques indiquent qu'il n'y a pas de regroupement à un niveau de signification de 5% (p = 0,167) tandis que les données normalement distribuées indiquent qu'il y en a (p = 0,013).

Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Use of local Moran's I and GIS to identifier pollution hotspots of Pb in urban soils of Galway, Ireland, Science of The Total Environment, Volume 398, Issues 1–3, 15 juillet 2008 , Pages 212-221

algorithm r spatial-statistics

— MannyG
source

Avez-vous une référence pour la sensibilité aux distributions asymétriques)? Êtes-vous intéressé par des tests globaux de distribution spatiale non aléatoire ou par l'identification de caractéristiques anormales locales? Quelle est la distribution du résultat d'intérêt (variable de comptage positive?)

— Andy W

AndyW: 1) Une référence à la sensibilité du test est `` l'analyse spatiale de Fortin et Dale, un guide pour les écologistes '' (p. 125), 2) je suis intéressé par des solutions aux tests mondiaux et locaux, 3) je n'ai pas de spécificité la distribution des données à l'esprit.

— MannyG

Andy, parce que le Moran I est basé sur des estimations de variance et de covariance pondérées, il aura la même sensibilité aux valeurs aberrantes que ces estimations, ce qui (comme on le sait) est considérable. Cette idée ouvre également la voie à de nombreuses solutions possibles au problème de Manny: remplacez vos versions robustes préférées d'estimations de dispersion et d'association pour former une corrélation pondérée robuste et vous êtes hors tension.

— whuber

Il semble que vous puissiez confondre plusieurs concepts ici, @Andy. Premièrement, Manny veut mesurer l' autocorrélation; il ne fait pas nécessairement un test d'hypothèse. Deuxièmement, la question des tests d'hypothèse est mieux formulée en termes de puissance plutôt que de robustesse. Mais (troisièmement), les concepts ont un lien: une statistique de test robuste aura tendance à maintenir son pouvoir dans un large éventail de violations des hypothèses de distribution (telles que la contamination par des valeurs aberrantes), tandis qu'une statistique de test non robuste peut perdre la plupart ou la totalité des son pouvoir dans ces situations.

— whuber

@ FC84, j'ai revu ce problème l'année dernière et j'ai rédigé une proposition de solution. Mais cela doit être vérifié. Je prévois d'offrir une version (beaucoup) réduite de cet article comme réponse ici à un moment donné. N'hésitez pas à glaner ce que vous pouvez de ce que j'ai. Mais utilisez-le avec prudence!

— MannyG

(C'est tout simplement trop lourd à ce stade pour devenir un commentaire)

Cela concerne les tests locaux et globaux (pas une mesure d'auto-corrélation spécifique et indépendante de l'échantillon). Je peux comprendre que la de spécifique Moran I La mesure est une estimation biaisée de la corrélation ( l' interpréter dans les mêmes termes que le coefficient de corrélation de Pearson), je ne vois toujours pas comment le test d'hypothèse de permutation est sensible à la distribution originale de la variable ( soit en termes d'erreurs de type 1 ou de type 2).

Adapter légèrement le code que vous avez fourni dans le commentaire (les poids spatiaux colqueenmanquaient);

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

Lorsque l'on effectue des tests de permutation (dans ce cas, j'aime à le considérer comme un espace de confusion), le test d'hypothèse de l'auto-corrélation spatiale globale ne devrait pas être affecté par la distribution de la variable, car la distribution de test simulée changera essentiellement avec la distribution des variables d'origine. On pourrait probablement trouver des simulations plus intéressantes pour le démontrer, mais comme vous pouvez le voir dans cet exemple, les statistiques de test observées sont bien en dehors de la distribution générée pour l'original PLUMBet le journal PLUMB(ce qui est beaucoup plus proche d'une distribution normale) . Bien que vous puissiez voir la distribution de test PLUMB enregistrée sous le décalage nul plus proche de la symétrie sur 0.

entrez la description de l'image ici

J'allais suggérer cela comme une alternative de toute façon, transformant la distribution pour qu'elle soit approximativement normale. J'allais également suggérer de rechercher des ressources sur le filtrage spatial (et de même les statistiques locales et mondiales de Getis-Ord), bien que je ne sois pas sûr que cela aidera avec une mesure sans échelle non plus (mais peut-être peut-être utile pour les tests d'hypothèse) . Je reviendrai plus tard avec potentiellement plus de littérature d'intérêt.

— Andy W
source

Merci Andy pour votre compte détaillé. Si je vous comprends bien, vous sous-entendez que dans un test de permutation, la statistique du test (le Moran I) ne changera pas par rapport à la distribution MC résultante, mais cela ne correspond pas à mes observations. Par exemple, si nous utilisons la variable HOVAL dans le même ensemble de données Columbus, la valeur de p du test I de MC Moran qui en résulte passe de 0,029 (avec les données asymétriques d'origine) à 0,004 (avec les données transformées en logarithme), indiquant un écart grandissant entre le MC distribution et test statistique - non négligeable si nous avions fixé le seuil à 1%.

— MannyG

Oui, vous interprétez correctement mon propos. Il est certainement possible de trouver une série particulière dans laquelle les résultats diffèrent. La question est de savoir si les taux d'erreur sont les mêmes dans diverses circonstances.

— Andy W