Ajuster la distribution aux données spatiales


10

Cross poster ma question de mathoverflow pour trouver une aide spécifique aux statistiques.

J'étudie un processus physique générant des données qui se projettent bien en deux dimensions avec des valeurs non négatives. Chaque processus a une piste (projetée) de points - - voir l'image ci-dessous.yXy

Les pistes d'échantillonnage sont bleues, une piste gênante a été dessinée à la main en vert et une zone de préoccupation dessinée en rouge: pistes et région préoccupante

Chaque piste est le résultat d'une expérience indépendante. Vingt millions d'expériences ont été menées sur plusieurs années, mais parmi celles-ci, seules deux mille présentent la caractéristique que nous traçons comme une piste. Nous ne sommes concernés que par les expériences qui génèrent une piste, donc notre ensemble de données est (environ) deux mille pistes.

1dix4

Comment pouvons-nous calculer la probabilité qu'une piste arbitraire entre dans la région concernée?

Il n'est pas possible de mener des expériences assez rapidement pour voir à quelle fréquence sont générées les pistes qui pénètrent dans la région concernée, nous devons donc extrapoler à partir des données disponibles.

Nous avons ajusté par exemple les valeurs de données , mais cela ne gère pas suffisamment les données telles que la piste verte - il semble nécessaire d'avoir un modèle englobant les deux dimensions.y 200Xy200

Nous avons adapté la distance minimale entre chaque piste et la région concernée, mais nous ne sommes pas convaincus que cela donne un résultat justifiable.

1) Existe-t-il un moyen connu d'adapter une distribution à ce type de données pour l'extrapolation?

-ou-

2) Existe-t-il un moyen évident d'utiliser ces données pour créer un modèle de génération de pistes? Par exemple, utilisez l'analyse des composants principaux sur les pistes comme points dans un grand espace, puis ajustez une distribution (Pearson?) Aux pistes projetées sur ces composants.


1
Je ne dois pas donner plus d'informations sur le processus particulier, mais je mettrai à jour la question pour parler de la façon dont les données sont collectées.
Jeff Snider

1
J'ai mis à jour le langage pour essayer d'être plus concret. Imaginez que nous jetons des cailloux sur une fenêtre ouverte du dernier étage, et nous nous soucions seulement de la façon dont les cailloux qui traversent la fenêtre rebondissent sur le sol à l'intérieur. Nous avons jeté des millions de cailloux, et environ 2000 sont passés par la fenêtre. Lorsqu'un caillou passe par la fenêtre, nous traçons sa progression sur le sol. Étant donné qu'un caillou passe par la fenêtre, nous voulons estimer la probabilité qu'il traverse la région préoccupante.
Jeff Snider

Réponses:


1

Il semble que vous souhaitiez simuler la formation de pistes, puis effectuer une simulation Monte Carlo pour voir combien de pistes tombent dans la région rouge. Pour ce faire, je voudrais d'abord convertir les lignes en deux fonctions, l'une donnant la direction et l'autre la distance d'un point à l'autre sur cette piste. Vous pouvez maintenant étudier les distributions de probabilité associées à ces deux fonctions. Par exemple, vous pouvez constater que la distance parcourue suit une distribution spécifique (veillez à ce que la distribution ne change pas avec le temps). Si l'une ou l'autre variable change au fil du temps, vous devez vous plonger dans l'analyse des séries temporelles (pas mon domaine, désolé).

Une autre pensée qui vient à l'esprit est que, puisque la direction du mouvement dans xy change progressivement dans la plupart des pistes, vous pourriez mieux examiner le changement de direction en fonction du temps pour les pistes.

Vous devrez également estimer la probabilité qu'une piste commence à une coordonnée xy donnée avec une direction donnée. Vous voudrez peut-être envisager d'utiliser l'estimation de la densité du noyau pour lisser le PDF résultant ou, s'il semble suivre une distribution pour laquelle il existe un modèle analytique, la maximisation des attentes pourrait être utilisée pour ajuster cette distribution aux données.

La simulation de Monte Carlo tirerait ensuite des échantillons aléatoires de ces distributions pour simuler les formes des pistes. Ensuite, vous devez simuler un grand nombre de pistes et voir à quelle fréquence ces pistes traversent la région rouge. Cela pourrait être des milliers ou des millions de pistes, vous devrez expérimenter pour voir quand la distribution cesse de changer lorsque vous ajoutez plus de pistes.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.