Comment trouver des relations entre différents types d'événements (définis par leur emplacement 2D)?

J'ai un ensemble de données d'événements qui se sont produits au cours de la même période. Chaque événement a un type (il existe peu de types différents, moins de dix) et un emplacement, représentés comme un point 2D.

Je voudrais vérifier s'il existe une corrélation entre les types d'événements ou entre le type et l'emplacement. Par exemple, les événements de type A ne se produisent généralement pas là où se produisent les événements de type B. Ou peut-être que dans certaines régions, il y a surtout des événements de type C.

Quel type d'outils pourrais-je utiliser pour effectuer cela? Étant novice en analyse statistique, ma première idée a été d'utiliser une sorte de PCA (analyse en composantes principales) sur cet ensemble de données pour voir si chaque type d'événement avait sa propre composante, ou peut-être que certains partageaient la même chose (c.-à-d. Étaient corrélés)?

Je dois mentionner que mon ensemble de données est de l'ordre de 500 000 points , ce qui rend les choses un peu plus difficiles à gérer. $(x, y, type)$

EDIT: Comme indiqué dans les réponses ci-dessous et les commentaires, la voie à suivre consiste à modéliser cela comme un processus ponctuel marqué, puis à utiliser R pour effectuer tous les travaux lourds, comme expliqué en détail dans ce rapport d'atelier: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai
source

S'agit-il d'un jeu de données raster, tel qu'une image (traitée) télédétectée, ou s'agit-il d'un jeu de données irrégulier?

— whuber

Eh bien, je pense que vous diriez que c'est irrégulier: ce sont des enregistrements de crimes qui se sont produits au Royaume-Uni au cours d'un mois donné, disponibles ici: police.uk/data .

— Wookai

@Wookai 500 000 000 crimes au Royaume-Uni en un mois ?? L'anarchie est-elle descendue sur les îles britanniques, non révélée par la presse, pour finalement être révélée dans les dossiers de la police? :-) Je pourrais croire environ 1 / 100e de ce montant - à peine.

— whuber

Wow, je suis vraiment désolé pour cette "faute de frappe";)! C'est 1000 fois moins en fait, 500'000 délits (en comptant les "délits de véhicules", c'est-à-dire les contraventions, etc ...).

— Wookai

Oui, R regarde la voie à suivre! J'ai trouvé un rapport très complet d'un atelier sur le module spatstat de R, qui fait exactement ce que je recherche: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai

Réponses:

Le type de données que vous décrivez est généralement appelé "modèles de points marqués", R a une vue des tâches pour les statistiques spatiales qui offre de nombreux bons packages pour ce type d'analyse, dont la plupart ne sont probablement pas en mesure de traiter le type de données énormes que vous avoir :(

Par exemple, les événements de type A ne se produisent généralement pas là où se produisent les événements de type B. Ou peut-être que dans certaines régions, il y a surtout des événements de type C.

Ce sont deux types de questions assez différents: Le second pose des questions sur le positionnement d'un type de marque / événement. Les mots à la mode à rechercher dans ce contexte sont estimation de l'intensité fe ou estimation de la fonction K si vous êtes intéressé à découvrir des modèles de regroupement (les événements d'un genre ont tendance à se regrouper) ou de répulsion (les événements d'un type ont tendance à être séparés). La première interroge sur la corrélation entre différents types d'événements. Ceci est généralement mesuré avec des fonctions de corrélation de marque.

Je pense que le sous-échantillonnage des données pour obtenir une taille de données plus traitable est dangereux (voir le commentaire de la réponse de @ hamner), mais peut-être pourriez-vous agréger vos données: divisez la fenêtre d'observation en un nombre gérable de cellules de taille égale et tabulez le nombre d'événements dans chaque. Chaque cellule est ensuite décrite par l'emplacement de son centre et un vecteur de comptage pour vos 10 types de marques. Vous devriez pouvoir utiliser les méthodes standard pour les processus ponctuels marqués sur ce processus agrégé.

— fabians
source

Je connais les processus ponctuels marqués et certains outils théoriques connexes, j'aurais dû y penser auparavant. Merci beaucoup pour les mots clés, avez-vous peut-être quelques conseils pour ceux-ci? Merci aussi pour l'idée d'agrégation, j'en ai eu une similaire, j'essaierai de le faire.

— Wookai

Peter Diggle a écrit une "géostatistique basée sur un modèle". Il a également une analyse des données de criminalité du Lancashire sur cette page: lancs.ac.uk/staff/diggle/MADE qui pourrait vous donner de bonnes idées.

— fabians

Tout d'abord, la taille de l'ensemble de données. Je recommande de prendre de petits échantillons traitables de l'ensemble de données (soit en choisissant au hasard N points de données, soit en choisissant au hasard plusieurs rectangles relativement petits dans le plan XY et en prenant tous les points qui se trouvent dans ce plan), puis d'affiner vos techniques d'analyse sur ce sous-ensemble. Une fois que vous avez une idée de la forme d'analyse qui fonctionne, vous pouvez l'appliquer à de plus grandes portions de l'ensemble de données.

L'ACP est principalement utilisée comme technique de réduction de dimensionnalité; votre jeu de données ne comporte que trois dimensions (dont l'une est catégorique), je doute donc que cela s'applique ici.

Essayez de travailler avec Matlab ou R pour visualiser les points que vous analysez dans le plan XY (ou leur densité relative si vous travaillez avec l'ensemble des données), à la fois pour les types individuels et tous les types combinés, et voir quels modèles émergent visuellement. Cela peut aider à guider une analyse plus rigoureuse.

— benhamner
source

Le fait que cela soit approprié dépend de ce que vous savez ou supposez déjà sur votre processus de génération de données. Le sous-échantillonnage des données par région (c'est-à-dire prendre tous les points dans une fenêtre plus petite prédéfinie) peut être dangereux s'il n'est pas homogène (car l'utilisation d'une fenêtre différente aurait changé vos conclusions). L'échantillonnage des données sans tenir compte du positionnement pour un ensemble d'entraînement a pour effet de "clarifier" le processus observé et invalide les conclusions que vous pourriez vouloir tirer, par exemple la gamme de corrélations entre les marques ou les processus de regroupement / répulsion.

— fabians

Oui, je sais que l'ACP est pour la réduction de la dimensionnalité, c'est pourquoi je ne savais pas comment je pouvais l'appliquer à mon ensemble de données. L'idée était de voir si chaque type d'événement avait sa propre "direction", ou si certains "partageaient la même direction". Mais je suppose que je pensais simplement à la corrélation.

— Wookai