Le I de Moran , une mesure de l'autocorrélation spatiale, n'est pas une statistique particulièrement robuste (il peut être sensible aux distributions asymétriques des attributs des données spatiales).
Quelles sont les techniques les plus robustes pour mesurer l'autocorrélation spatiale? Je suis particulièrement intéressé par les solutions qui sont facilement disponibles / implémentables dans un langage de script comme R. Si les solutions s'appliquent à des circonstances / distributions de données uniques, veuillez les spécifier dans votre réponse.
EDIT : J'élargis la question avec quelques exemples (en réponse aux commentaires / réponses à la question d'origine)
Il a été suggéré que les techniques de permutation (où une distribution d'échantillonnage de Moran I est générée à l'aide d'une procédure de Monte Carlo) offrent une solution robuste. Ma compréhension est qu'un tel test élimine le besoin de faire des hypothèses sur la distribution de Moran I (étant donné que la statistique du test peut être influencée par la structure spatiale de l'ensemble de données) mais, je ne vois pas comment la technique de permutation corrige pour les non-normalement données d'attribut distribuées . J'offre deux exemples: l'un qui démontre l'influence des données asymétriques sur la statistique I locale de Moran, l'autre sur le I global de Moran même sous des tests de permutation.
Je vais utiliser Zhang et al. « s (2008) analyse comme le premier exemple. Dans leur article, ils montrent l'influence de la distribution des données d'attribut sur le Moran local I en utilisant des tests de permutation (9999 simulations). J'ai reproduit les résultats du point chaud des auteurs pour les concentrations de plomb (Pb) (au niveau de confiance de 5%) en utilisant les données d'origine (panneau de gauche) et une transformation logarithmique de ces mêmes données (panneau de droite) dans GeoDa. Des boîtes à moustaches des concentrations de Pb originales et transformées en log sont également présentées. Ici, le nombre de points chauds importants double presque lorsque les données sont transformées; cet exemple montre que la statistique locale est sensible à la distribution des données d'attribut - même en utilisant des techniques de Monte Carlo!
Le deuxième exemple (données simulées) montre l'influence des données asymétriques sur le I global de Moran , même lors de l'utilisation de tests de permutation. Un exemple, dans R , suit:
library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n <- length(NB)
set.seed(4956)
x.norm <- rnorm(n)
rho <- 0.3 # autoregressive parameter
W <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value
Notez la différence des valeurs P. Les données asymétriques indiquent qu'il n'y a pas de regroupement à un niveau de signification de 5% (p = 0,167) tandis que les données normalement distribuées indiquent qu'il y en a (p = 0,013).
Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Use of local Moran's I and GIS to identifier pollution hotspots of Pb in urban soils of Galway, Ireland, Science of The Total Environment, Volume 398, Issues 1–3, 15 juillet 2008 , Pages 212-221