Je travaille sur un problème d'inférence de grande dimension (environ 2000 paramètres de modèle) pour lequel nous sommes capables d'effectuer de manière robuste une estimation MAP en trouvant le maximum global du log-postérieur en utilisant une combinaison d'optimisation basée sur un gradient et un algorithme génétique.
J'aimerais beaucoup pouvoir faire une estimation des incertitudes sur les paramètres du modèle en plus de trouver l'estimation MAP.
Nous sommes en mesure de calculer efficacement le gradient du log-postérieur par rapport aux paramètres, donc à long terme, nous visons à utiliser le Hamiltonian MCMC pour faire un échantillonnage, mais pour l'instant je suis intéressé par les estimations non basées sur l'échantillonnage.
La seule approche que je connaisse est de calculer l'inverse de la Hesse au mode d'approximation du postérieur comme normal multivarié, mais même cela semble irréalisable pour un système aussi grand, car même si nous calculons le éléments de la Hesse Je suis sûr que nous n'avons pas pu trouver son inverse.
Quelqu'un peut-il suggérer le type d'approches généralement utilisées dans des cas comme celui-ci?
Merci!
EDIT - informations supplémentaires sur le problème
Contexte
Il s'agit d'un problème inverse lié à une grande expérience de physique. Nous avons un maillage triangulaire 2D qui décrit certains champs physiques, et nos paramètres de modèle sont les valeurs physiques de ces champs à chaque sommet du maillage. Le maillage a environ 650 sommets, et nous modélisons 3 champs, c'est donc de là que viennent nos paramètres de modèle 2000.
Nos données expérimentales proviennent d'instruments qui ne mesurent pas directement ces champs, mais de quantités qui sont des fonctions non linéaires complexes des champs. Pour chacun des différents instruments, nous avons un modèle direct qui mappe les paramètres du modèle aux prédictions des données expérimentales, et une comparaison entre la prédiction et la mesure donne une log-vraisemblance.
Nous résumons ensuite les log-vraisemblances de tous ces différents instruments, et ajoutons également des valeurs log-prior qui appliquent des contraintes physiques aux champs.
Par conséquent, je doute que ce «modèle» tombe parfaitement dans une catégorie - nous n'avons pas le choix de ce qu'est le modèle, il est dicté par le fonctionnement des instruments réels qui collectent nos données expérimentales.
Ensemble de
données L' ensemble de données est composé d'images 500x500, et il y a une image pour chaque caméra, donc le nombre total de points de données est 500x500x4 = .
Modèle d'erreur
Nous considérons que toutes les erreurs du problème sont gaussiennes pour le moment. À un moment donné, je pourrais essayer de passer à un modèle d'erreur étudiant-t juste pour une flexibilité supplémentaire, mais les choses semblent toujours bien fonctionner avec les seuls gaussiens.
Exemple de vraisemblance
Il s'agit d'une expérience de physique des plasmas, et la grande majorité de nos données proviennent de caméras pointées sur le plasma avec des filtres particuliers devant les lentilles pour ne regarder que des parties spécifiques du spectre lumineux.
Pour reproduire les données, il y a deux étapes; nous devons d'abord modéliser la lumière qui provient du plasma sur le maillage, puis nous devons modéliser cette lumière sur une image de la caméra.
La modélisation de la lumière provenant du plasma dépend malheureusement de ce que sont effectivement les coefficients de vitesse, qui indiquent la quantité de lumière émise par différents processus compte tenu des champs. Ces taux sont prédits par certains modèles numériques coûteux, nous devons donc stocker leur sortie sur des grilles, puis interpoler pour rechercher des valeurs. Les données de la fonction de fréquence ne sont calculées qu'une seule fois - nous les stockons puis en construisons une spline lorsque le code démarre, puis cette spline est utilisée pour toutes les évaluations de fonction.
Supposons que et sont les fonctions de vitesse (que nous évaluons par interpolation), alors l'émission au ième sommet du maillage est donnée par
où sont les 3 champs que nous modélisons sur le maillage. Obtenir le vecteur des émissions sur une image de caméra est facile, il suffit de multiplier avec une matrice qui code les parties du maillage que chaque pixel de la caméra regarde.
Comme les erreurs sont gaussiennes, la probabilité logarithmique pour cette caméra particulière est alors
où correspond aux données de la caméra. La probabilité logarithmique totale est une somme de 4 des expressions ci-dessus, mais pour différentes caméras, qui ont toutes des versions différentes des fonctions de débit car elles regardent différentes parties du spectre lumineux.
Exemple précédent
Nous avons différents priors qui fixent simplement certaines limites supérieures et inférieures sur diverses quantités, mais ceux-ci ont tendance à ne pas agir trop fortement sur le problème. Nous en avons un avant qui agit fortement, qui applique efficacement le lissage de type laplacien aux champs. Il prend également une forme gaussienne: