Cross poster ma question de mathoverflow pour trouver une aide spécifique aux statistiques.
J'étudie un processus physique générant des données qui se projettent bien en deux dimensions avec des valeurs non négatives. Chaque processus a une piste (projetée) de points - - voir l'image ci-dessous.y
Les pistes d'échantillonnage sont bleues, une piste gênante a été dessinée à la main en vert et une zone de préoccupation dessinée en rouge:
Chaque piste est le résultat d'une expérience indépendante. Vingt millions d'expériences ont été menées sur plusieurs années, mais parmi celles-ci, seules deux mille présentent la caractéristique que nous traçons comme une piste. Nous ne sommes concernés que par les expériences qui génèrent une piste, donc notre ensemble de données est (environ) deux mille pistes.
Comment pouvons-nous calculer la probabilité qu'une piste arbitraire entre dans la région concernée?
Il n'est pas possible de mener des expériences assez rapidement pour voir à quelle fréquence sont générées les pistes qui pénètrent dans la région concernée, nous devons donc extrapoler à partir des données disponibles.
Nous avons ajusté par exemple les valeurs de données , mais cela ne gère pas suffisamment les données telles que la piste verte - il semble nécessaire d'avoir un modèle englobant les deux dimensions.y ≥ 200
Nous avons adapté la distance minimale entre chaque piste et la région concernée, mais nous ne sommes pas convaincus que cela donne un résultat justifiable.
1) Existe-t-il un moyen connu d'adapter une distribution à ce type de données pour l'extrapolation?
-ou-
2) Existe-t-il un moyen évident d'utiliser ces données pour créer un modèle de génération de pistes? Par exemple, utilisez l'analyse des composants principaux sur les pistes comme points dans un grand espace, puis ajustez une distribution (Pearson?) Aux pistes projetées sur ces composants.