Quelle est la statistique appropriée pour mesurer l'autocorrélation spatiale de points avec des valeurs binaires?

J'essaie de déterminer le niveau d'autocorrélation spatiale dans un ensemble de données ponctuelles. L'attribut qui m'intéresse est le binaire (présence / absence d'une espèce), pour lequel le je de Moran n'est pas approprié. D'un autre côté, les statistiques de comptage conjoint, qui sont généralement recommandées pour les données binaires ou catégorielles, ne sont apparemment pas appropriées pour les données ponctuelles. En bref, la question est donc: quelle est la statistique appropriée pour mesurer l'autocorrélation spatiale globale et / ou locale de points lorsque l'attribut d'intérêt est binaire?

spatial-statistics

— user13706
source

Votre affirmation selon laquelle une statistique Join-Counts n'est pas appropriée pour les données binaires n'est pas correcte. Il s'agit simplement de savoir comment la matrice de pondérations spatiales (Wij) est spécifiée. Comme dans un Morna's-I, vous ne pouvez pas utiliser une matrice de distance dans ce type d'analyse.Toutefois, une matrice binaire appropriée de contingence peut être calculée à l'aide d'une coupure de distance. Vous pouvez créer ce type de matrice de pondérations spatiales ainsi que réaliser une analyse Join-Count dans la bibliothèque R spdep. Voir les fonctions "joincount.test" et joincount.mc (pour le test de permutation de Monte Carlo).

— Jeffrey Evans
source

Merci, Jeffrey. Les dénombrements conjoints sont clairement la voie à suivre pour les données binaires, mais j'ai vu une suggestion (je ne me souviens plus où, maintenant) que les dénombrements conjoints n'étaient appropriés que pour les données de zone (pas ponctuelles). Je ne comprenais pas pourquoi vous ne pouviez pas créer la matrice de poids en utilisant un seuil de distance et utiliser un compte conjoint, mais je n'ai pas trouvé d'exemples de cela dans certaines recherches superficielles. Y a-t-il une référence que vous pouvez fournir pour ce type d'utilisation?

— user13706

Il s'agit d'un vaste corpus de littérature sur l'analyse des motifs ponctuels. La statistique Join-Counts n'est pas couramment utilisée et, en tant que telle, n'est pas très répandue dans la littérature actuelle. Je reviendrais aux premiers travaux de Diggle ou Geits. Quel est votre objectif pour quantifier la dépendance spatiale dans les données binomiales? Vous ne pouvez pas utiliser un coefficient Join-Counts dans quelque chose comme un effet mixte ou un modèle CAR / SAR. Voici quelques informations intéressantes sur la mise à l'échelle du modèle d'occupation ( en.wikipedia.org/wiki/Scaling_pattern_of_occupancy )

— Jeffrey Evans

RandomForest est un modèle non paramétrique et, en tant que tel, n'est pas effectué par autocorrélation. La préoccupation avec ce modèle est la corrélation au sein de l'ensemble bootstrap. Souvent, l'autocorrélation peut créer une "redondance" dans vos données qui crée un biais dans le Bootstrap. Je regarderais en fonction de la distribution conditionnelle (s) de vos covariables. J'ai le code R disponible "R - Densité de probabilité de tracé par facteur de regroupement" ici: conserveonline.org/workspaces/emt/documents/all.html

— Jeffrey Evans

Oh, je ne généraliserais pas que la RF soit une boîte entièrement noire. Ce n'est en fait pas le cas. Ce modèle est souvent appelé «boîte grise». Étant donné que l'autocorrélation influence principalement les hypothèses d'IID dans les méthodes fréquentistes, il est assez sûr que les hypothèses non paramétriques ne sont pas violées.

— Jeffrey Evans

Nous généralisons les statistiques "non paramétriques". Cela englobe de nombreuses méthodes. Si vous regardez les épreuves de Brieman en 2001, vous verrez que RF n'assume pas l'indépendance. Le livre de Hastie "Elements of Statistical Learning" fournit une solide base statistique à la théorie des échantillons en relation avec les méthodes d'apprentissage automatique. Comme indiqué précédemment, la préoccupation est la corrélation dans l'ensemble qui peut certainement être causée par une pseudoréplication / autocorrélation. Cependant, ce n'est pas une hypothèse de modèle en RF. Cependant, s'il est suffisamment sévère, l'effet net du biais ou du surajustement est évidemment le même.

— Jeffrey Evans

Les données binaires sont un cas d'utilisation normal pour l'autocorrélation spatiale. Je pense que la plupart des livres d'analyse spatiale en parleront. Ce document pourrait être utile.

— mfdev
source

La première page de votre référence souligne que «les emplacements de données sont des régions », il semble donc que cela ne s'applique pas du tout aux données ponctuelles.

— whuber

-1

Vos données peuvent être analysées à l'aide des techniques "Point Pattern Analysis". Plus précisément, "Ripley's K" sera probablement le meilleur pour vous.

Un bon aperçu est ici: http://www.people.vcu.edu/~dbandyop/pubh8472/RipleysK.pdf

— user67172
source