Processus gaussiens à aire d'échantillonnage finie


8

Je m'excuse d'avance si cette question est mal posée: je suis astronome, pas statisticien. Ma question vise spécifiquement à m'aider à déterminer si les processus gaussiens sont une technique appropriée pour mon problème.

À l'aide d'un télescope et d'un spectrographe alimenté par fibres, mon projet a pris le spectre optique d'une galaxie à de nombreux endroits. Le motif d'échantillonnage pour un seul pointage se trouve dans la première image, et est répété trois fois au total, avec différents décalages spatiaux, afin de combler les lacunes (deuxième image). Idéalement, je voudrais construire des estimations de certaines quantités sur une grille couvrant la galaxie.

Modèle d'échantillonnage pour un seul télescope pointant Modèle de décalage multi-pointage

Ma méthode naïve serait d'analyser séparément le spectre de chaque fibre, de sorte que j'avais estimations ponctuelles des quantités d'intérêt, puis de construire un processus gaussien pour estimer ces quantités partout. De même, je pourrais construire un processus gaussien pour les spectres eux-mêmes, puis analyser le GP sur ma grille de choix pour trouver les quantités qui m'intéressent. Cependant, je ne suis pas sûr que ce soit même une approche valable, car mes observations sont pas discrètes, mais plutôt coïncidentes.3Nfibers

Contrairement, par exemple, aux pédologues, qui pourraient échantillonner la saleté d'un endroit très discret, puis s'éloigner de 50 mètres et répéter, mes observations se chevauchent spatialement, donc j'intègre sur toute la lumière qu'une galaxie émet. Il n'est pas évident pour moi que je serais autorisé à négliger toute variation spatiale pouvant exister dans une mesure donnée. En d'autres termes, un processus gaussien est-il même valable lorsque les emplacements d'échantillonnage individuels ne sont pas petits? Puis-je intégrer un terme spatial supplémentaire pour tenir compte du "mélange" de la lumière dans une seule fibre?


Addendum: Traditionnellement, les spectres sont juste interpolés, rééchantillonnés sur une grille, puis analysés, ce qui me semble également extrêmement faux - mais si je vais pleuvoir sur les défilés de collègues, je veux au moins présenter une méthode alternative.

Réponses:


5

Je pense que vos deux questions clouent le problème. Il semble que vous puissiez utiliser des GP pour une partie du problème, mais vous devrez peut-être en faire plus. Pour expliquer les problèmes que je vois, je vais d'abord traduire ma compréhension de votre problème dans un langage plus mathématique:

  1. Le problème

Vous êtes intéressé par une certaine quantité physique ("spectres"?) Où est un point dans un domaine de l'avion (votre photo). est scalaire, c'est-à-dire un nombre unique pour chaque point du plan. On ne peut pas observer directement, on ne peut en observer qu'une moyenne spatiale en certains points d'une grille. C'est-à-dire que vous observezLes sont les différents disques qui se chevauchent sur votre photo. Vous ne l'avez pas mentionné, mais il y a peut-être aussi du bruit de mesure dans vos observations, alors vous devrez ajouter un terme de bruit sur le RHS.f(x)xffFsk

F(sk)=Dkf(x)dx.
Dkϵ
  1. Et les médecins généralistes?

Il est tout à fait OK pour adapter un GP à vos observations et vous obtiendrez une approximation de GP valide ou interpolation de . Le GP ne se soucie vraiment pas que votre soit fait de disques qui se chevauchent, il notera et reflètera juste la bonne quantité de corrélation pour des valeurs suffisamment proches les unes des autres. Le problème est bien sûr que cela produira un GP pour non un pour . Et ne sera pas une (bonne / raisonnable) approximation de moins que soit plus ou moins constant sur le .FFFfFffDk

  1. Comment récupérer ?f

Il existe différentes façons de récupérer de . Ce qui est faisable ou peut-être même "le meilleur" dépend de vos besoins spécifiques et des détails du problème. Puisque vous connaissez explicitement la fonction moyenne de vous pouvez essayer une forme de déconvolution numérique.fFmFF

Une façon plus entrain de GP est de faire l'hypothèse que est une fonction GP avec moyenne et de la fonction de covariance . La théorie mathématique vous dit alors que est aussi un GP avec une fonction moyenne et une covariance .fmKF

mF(s)=Dsm(x)dx
KF(s1,s2)=Ds1Ds2K(x1,x2)dx1dx2

Le théorème du représentant pour la moyenne d'un GP vous dit alors que et vous pouvez conclure en comparant les coefficients quemF(s)=kαkKF(sk,s)

m(s)=kαkDkK(x,s)dx.

Vous pouvez également déduire la distribution prédictive à un point en notant que et les observations de ont une distribution normale conjointe et vous pouvez conditionner les observations de . Les formules se compliquent cependant mais elles sont simples (voir cet article Equations (8) et (9))sf(s)FF

Le problème est d'ordre pratique: soit vous devez trouver le noyau dans votre choix de ce qui est probablement difficile, soit vous commencez avec un tel que (i) vous pouvez calculer ET (ii) fonctionne raisonnablement bien pour vos observations ET (iii) est logique comme modèle pour vos données astronomiques.KKFKKFKFK


Grande discussion. Pourrions-nous imaginer à la place une procédure comme: 1) Développer F sur les fonctions de base choisies, 2) Estimer le vecteur de paramètres et construire , 3) Prendre la dérivée de pour récupérer ? F^F^f^
dv_bn

Oui mais l'étape 3 ne fonctionne que dans une dimension et non dans deux comme c'est le cas ici.
gg

Même si vous prenez un dérivé directionnel?
dv_bn

Merci pour cette discussion extrêmement approfondie. Cela m'a donné beaucoup à réfléchir!
DathosPachy

1

Il y a un sujet en géostatistique appelé Exact Downscaling. L'objectif principal ici est d'estimer une propriété à une échelle plus petite que les observations. Ces observations peuvent également se chevaucher ou non (cela n'a pas vraiment d'importance). Veuillez consulter ce document: http://www.ccgalberta.com/ccgresources/report07/2005-101-exact_reproduction.pdf

Dans cet article, ils montrent une méthode pour réduire l'échelle des observations à l'aide de techniques géostatistiques. Ils montrent qu'en calculant correctement les covariances croisées entre différentes échelles de données (point vs bloc), l'estimation du krigeage est toujours valide; de telle sorte que la moyenne des valeurs estimées à plus petite échelle soit égale à des données d'entrée plus importantes. Fondamentalement, pour calculer les valeurs estimées dans n'importe quelle échelle, il vous suffit de calculer correctement la fonction de covariance entre les données d'entrée, les échelles cibles et les corrélations croisées. Au processus gaussien, l'hypothèse est que l'estimation se fait à la même échelle que les observations d'entrée.

Voici donc les étapes: 1- Calculez le variogramme expérimental à partir de vos données.

2- Ajustez le modèle de variogramme à votre variogam expérientiel. Vous devrez peut-être tenir compte de l'anisotropie directionnelle ici. Il s'agit de la fonction de covariance qui en GP est calculée par la méthode du maximum de vraisemblance.

3- Calculez toutes les covariances et les covariances croisées entre les données d'entrée et l'échelle cible. Il existe des reçus numériques pour cette étape. L'idée est qu'en discrétisant les blocs en points finis, vous pouvez calculer la covariance moyenne. Les données de chevauchement doivent être prises en compte ici.

4- effectuer le Krigeage et calculer les valeurs estimées.

GP est un sujet très lié à la géostatistique. Cependant, la géostatistique ne se limite pas aux processus gaussiens. Il existe de nombreuses autres méthodes pour estimer ou simuler un processus aléatoire.


1
Bienvenue sur le site. Nous essayons de construire un référentiel permanent d'informations statistiques de haute qualité sous forme de questions et réponses. Ainsi, nous nous méfions des réponses de lien uniquement, en raison de linkrot. Pouvez-vous publier une citation complète et un résumé des informations sur le lien, au cas où elles disparaissent?
gung - Rétablir Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.