Optimisation des modèles informatiques stochastiques

C'est un sujet difficile pour moi sur Google, car avoir les mots optimisation et stochastique dans une recherche par défaut est presque automatiquement une recherche d'optimisation stochastique. Mais ce que je veux vraiment savoir, c'est quelles méthodes existent pour l'optimisation des modèles informatiques lorsque la sortie du modèle informatique est stochastique, c'est-à-dire non déterministe?

Par exemple, si vous considérez un modèle informatique où il existe une fonction inconnue qui représente la sortie du modèle informatique, il existe de nombreuses méthodes statistiques pour résoudre des problèmes comme $f(x)$

\begin{aligned} min & F (X) \\ X & \in X \end{aligned}

$\begin{align*} \min&\,\,\,\, f(x)\\ x&\in\mathcal{X} \end{align*}$

lorsque $f(x)$ est déterministe. Mais que se passe-t-il lorsque $f(x)$ est stochastique? Y a-t-il une solution au problème, ou au mieux pouvons-nous seulement résoudre

\begin{aligned} min & E [F (X)] \\ X & \in X \end{aligned}

$\begin{align*} \min&\,\,\,\, \mathbb{E}[f(x)]\\ x&\in\mathcal{X} \end{align*}$

où $\mathbb{E}(\cdot)$ est l'opérateur d'attente habituel.

optimization stochastic-processes

— RustyStatistician
source

C'est une question très intéressante. L'optimisation de est la seule chose qui sera vraiment possible. Une application statistique liée à cette question est l'algorithme MCEM, où la fonction de vraisemblance complète n'est observable qu'avec une erreur MCMC. De même, les algorithmes de filtre à particules MCMC ont le même problème. Je n'ai pas suffisamment lu sur les deux documents pour savoir quelles sont les méthodes de pointe pour répondre à cette question.

E [f (x)]

$E[f(x)]$

— Cliff AB

Cela dépend de votre objectif. n'est que l'un des nombreux choix possibles. Dans certaines applications, vous voudrez peut-être avoir une solution "fiable", pas seulement une solution "bonne en moyenne". Dans ce scénario, vous optimiseriez wrt à un certain quantile de la distribution de . L'optimisation bayésienne traite des évaluations de fonctions coûteuses (et parfois bruyantes). Vérifiez par exemple cette question .

E [f (x)]

$\mathbb{E}[f(x)]$

f (x)

$f(x)$

— lacerbi

@lacerbi certains de ces exemples sont-ils bruyants? Je pense qu'ils ne sont que déterministes.

— RustyStatistician

@RustyStatistician: vous avez raison, la plupart des exemples sont déterministes ou parlent de l'optimisation bayésienne en général. Voir ci-dessous pour des références plus focalisées sur la partie "bruyante".

— lacerbi

Avez-vous accès au programme informatique afin de pouvoir l'exécuter vous-même pour les entrées choisies ? Les méthodes de conception des expériences deviennent alors disponibles! Recherche ce site.

x

$x$

— kjetil b halvorsen

Réponses:

( Élargir mon commentaire à une réponse appropriée. )

Comme je l'ai mentionné, cela dépend de votre objectif.

La valeur attendue n'est que l'un des nombreux choix possibles pour la cible d'optimisation. Par exemple, en supposant que les sont normalement distribués, vous pouvez faire: $\mathbb{E}[f(x)]$ $f(x)$

x^{opt} = \arg min_{x} {E [f (x)] + κ \sqrt{V a r [f (x)]}}

$x^\text{opt} = \arg \min_x \left\{ \mathbb{E}[f(x)] + \kappa \sqrt{\mathbb{Var}[f(x)]} \right\}$ pour certains qui manipulent la sensibilité au risque. Si vous recherchez une solution robuste qui est probablement la meilleure et décourage les grandes fluctuations positives. Inversement, un négatif favoriserait une optimisation "optimiste" qui recherche de grandes fluctuations négatives (négatif est bon puisque nous minimisons). Vous pouvez choisir fonction des quantiles de la distribution normale (voir référence 2 ci-dessous).

κ \in R

$\kappa \in \mathbb{R}$

κ > 0

$\kappa > 0$

κ

$\kappa$

κ

$\kappa$

En général, l'optimisation bayésienne (BO, qui est liée aux processus gaussiens et au krigeage ) traite des évaluations de fonctions coûteuses et parfois bruyantes; bien que la majeure partie de la littérature se concentre sur la première partie. Vous pouvez trouver des critiques pour l'optimisation bayésienne à cette question .

Plusieurs personnes ont appliqué BO aux fonctions bruyantes. En guise d'introduction au sujet, David Ginsbourger a donné une belle conférence intitulée "Variations sur l'amélioration attendue" lors de l'atelier sur les processus gaussiens pour l'optimisation globale (Sheffield, 17 septembre 2015). Vous pouvez trouver son exposé ici , et tous les exposés sont disponibles sur cette page (je recommande également tous les autres exposés comme une excellente introduction générale à BO.)

Comme références, je commencerais par le travail effectué par Ginsbourger et ses collègues, et Gramacy et ses collègues:

Picheny, V. et Ginsbourger, D., 2014. "Méthodes d'optimisation basées sur le krigeage bruyant: une implémentation unifiée dans le package DiceOptim". Statistiques computationnelles et analyse des données , 71, pp.1035-1053. ( lien )
Picheny, V., Ginsbourger, D., Richet, Y. et Caplin, G., 2013. "Optimisation basée sur le quantile d'expériences informatiques bruyantes avec une précision ajustable". Technometrics , 55 (1), pp.2-13. ( lien )
Gramacy, RB et Lee, HK, 2012. «Modèles de processus gaussiens arborés bayésiens avec une application à la modélisation informatique». Journal de l'American Statistical Association . ( lien )
Gramacy, RB et Apley, DW, 2015. "Approximation du processus gaussien local pour les grandes expériences informatiques". Journal of Computational and Graphical Statistics , 24 (2), pp.561-578. ( lien )

Ginsburger et Gramacy ont tous deux des packages R qui implémentent leurs méthodes BO, respectivement DiceOptim et tgp .

— lacerbi
source

Où est dans votre réponse, ou voulez-vous dire ?

k

$k$

κ

$\kappa$

— RustyStatistician

Un autre algorithme, que je n'ai pas utilisé * mais qui gagne dans le département des noms amusants, est SNOBFIT . (* L'auteur est notable dans la communauté de l'optimisation cependant, et le logiciel a bien fonctionné sur une référence déterministe , donc la recommandation n'est pas seulement basée sur le nom cool!)

— GeoMatt22

Les réponses actuelles se concentrent sur la définition (mathématique) appropriée d'une cible d'optimisation stochastique - je veux fournir une perspective un peu plus appliquée.

Ce problème se produit fréquemment lors de l'ajustement de modèles stochastiques, par exemple en utilisant des probabilités informelles ou synthétiques. La référence (1) vous fournit une liste d'options qui peuvent être utilisées pour définir la distance entre un modèle stochastique et les données.

Après avoir défini votre cible de cette manière, le problème qui reste est de trouver l'optimum d'une moyenne d'une cible bruyante. Il y a deux voies à suivre, a) l'optimisation et b) l'échantillonnage MCMC. Vous posiez des questions spécifiques sur l'optimisation, mais je veux faire venir les MCMC car elles sont souvent mieux adaptées à cette tâche.

a) Si vous restez avec l'optimisation, vous devez vous assurer que vous n'êtes pas bloqué et que l'optimiseur peut gérer une cible stochastique. Le chapitre 4 de la thèse de doctorat de Matteo Fasiolo donne quelques indices, voir (2).

b) Comme nous le notons dans (1), les MCMC sont généralement plus robustes contre une cible stochastique - dans des conditions douces concernant la distribution du bruit, la MCMC fera la moyenne du bruit, et la cible échantillonnée sera indiscernable d'une non bruyante cible avec la moyenne de la cible bruyante. Cependant, les MCMC peuvent également rester bloqués lorsqu'ils rencontrent une évaluation particulièrement bonne. Ce que vous NE DEVEZ PAS FAIRE maintenant, c'est l'idée "évidente" suivante: calculez simplement la valeur actuelle et la valeur proposée dans chaque itération MCMC. Le mot-clé à rechercher ici est "pseudo-marginal", voir aussi ici et ici .

1) Hartig, F.; Calabrese, JM; Reineking, B .; Wiegand, T. & Huth, A. (2011) Inférence statistique pour les modèles de simulation stochastique - théorie et application . Ecol. Lett., 14, 816-827.

2) Fasiolo, M. (2016) Méthodes statistiques pour la dynamique des populations complexes . Université de Bath

— Florian Hartig
source

Disons que nous sommes dans un espace de probabilité discret de sorte que . Intuitivement, vous avez besoin d'une fonction pour pouvoir optimiser . Vous ne pouvez optimiser qu'un seul objectif! $f(x) \in \mathcal{R}^n$ $U: \mathcal{R}^n \rightarrow \mathcal{R}$ $U(f(x))$

L'optimisation d'une fonction d'objectif unique peut sembler assez contraignante, mais ce n'est pas le cas ! Au contraire, un seul objectif peut représenter des préférences incroyablement diverses que vous pourriez avoir par rapport à ce qui est une solution meilleure ou pire.

En sautant, un simple point de départ peut être de choisir une variable aléatoire puis de résoudre: $\lambda$

\begin{array}{llr} minimiser (plus X) & E [λ F (X)] \\ sujet à & X \in X \end{array}

$\begin{array}{*2{>{\displaystyle}r}} \mbox{minimize (over $x$)} & E\left[\lambda f(x) \right] \\ \mbox{subject to} & x \in X \end{array}$ Il s'agit d'une simple repondération linéaire de . Quoi qu'il en soit, voici un argument pour expliquer pourquoi le regroupement de plusieurs objectifs en un seul objectif est généralement correct.

E [f (x)]

$E[f(x)]$

Configuration de base:

Vous avez une variable de choix et un ensemble réalisable . $x$ $X$
Votre choix de conduit à un résultat aléatoire $x$ $\tilde{y} = f(x)$
Vous avez des préférences rationnelles sur le résultat aléatoire. (Fondamentalement, vous pouvez dire si vous préférez un résultat aléatoire à un autre.) $\prec$ $\tilde{y}$

Votre problème est de choisir tel que: $x^*\in X$

∄_{X \in X} F (X^{*}) ≺ F (X)

$\nexists_{x \in X} \quad f(x^*) \prec f(x)$ En anglais, vous voulez choisir afin qu'aucun choix réalisable conduise à un résultat préféré à .

x^{*}

$x^*$

x

$x$

f (x^{*})

$f(x^*)$

Équivalence à maximiser l'utilité (sous certaines conditions techniques)

Pour des raisons de simplicité technique, je dirai que nous sommes dans un espace de probabilité discret avec résultats afin que je puisse représenter un résultat aléatoire avec un vecteur . $n$ $\tilde{y}$ $\mathbf{y} \in \mathcal{R}^n$

Sous certaines conditions techniques (qui ne sont pas limitatives au sens pratique), le problème ci-dessus équivaut à maximiser une fonction d'utilité . (La fonction d'utilité attribue un nombre plus élevé de résultats préférés.) $U(\mathbf{y})$

Cette logique s'appliquerait à tout problème où votre choix conduit à plusieurs variables de résultat.

\begin{array}{llr} maximiser (sur X) & U (F (X)) \\ sujet à & X \in X \end{array}

$\begin{array}{*2{>{\displaystyle}r}} \mbox{maximize (over $x$)} & U(f(x)) \\ \mbox{subject to} & x \in X \end{array}$

Donner plus de structure à la fonction d'utilité : Hypothèse d' utilité attendue : $U$

Si nous sommes dans un cadre probabiliste et que nous acceptons les axiomes de Neumann-Morgernstern , la fonction d'utilité globale doit prendre une forme spéciale: $U$

U (y) = E [u (y_{je})] = \sum_{je} p_{je} u (y_{je})

$U(\mathbf{y}) = E[u(y_i)] = \sum_i p_i u(y_i)$ Où est la probabilité de l'état et est une fonction d'utilité concave. La courbure de mesure l'aversion au risque. Substituant simplement cette forme spécialisée de , vous obtenez:

p_{i}

$p_i$

i

$i$

u

$u$

u

$u$

U

$U$

\begin{array}{llr} maximiser (sur X) & \sum_{je} p_{je} u (y_{je}) \\ sujet à & X \in X \\ y = F (X) \end{array}

$\begin{array}{*2{>{\displaystyle}r}} \mbox{maximize (over $x$)} & \sum_i p_i u(y_i) \\ \mbox{subject to} & x \in X \\ & \mathbf{y} = f(x) \end{array}$

Observez que le cas simple maximise la valeur attendue (c.-à-d. Aucune aversion au risque). $u(y_i) = y_i$

Une autre approche: poids $\lambda$

Une autre chose à faire est:

\begin{array}{llr} maximiser (sur X) & \sum_{je} λ_{je} y_{je} \\ sujet à & X \in X \\ y = F (X) \end{array}

$\begin{array}{*2{>{\displaystyle}r}} \mbox{maximize (over $x$)} & \sum_i \lambda_i y_i \\ \mbox{subject to} & x \in X \\ & \mathbf{y} = f(x) \end{array}$

Intuitivement, vous pouvez choisir des poids qui sont plus grands ou plus petits que la probabilité d'un état, et cela capture l'importance d'un état. $\lambda_i$ $p_i$

La justification plus profonde de cette approche est que dans certaines conditions techniques, il existe des poids lambda tels que le problème ci-dessus et les problèmes précédents (par exemple, maximiser ) ont la même solution. $\boldsymbol{\lambda}$ $U(f(x))$

— Matthew Gunn
source

Mais dans cette configuration, toutes les fonctions utilitaires ne conduisent pas à la même réponse correcte?

— RustyStatistician

Et existe-t-il des choix typiques pour les fonctions utilitaires? Mon problème est un simulateur informatique stochastique, qui est en fait un simulateur de boîte noire, donc je ne connais aucune information sur la mécanique sous-jacente, puis-je même lui attribuer une fonction utilitaire?

— RustyStatistician

Vous devez réfléchir à la logique de votre problème, ce qui constitue un bon résultat, puis trouver une fonction objective qui attribue de meilleurs résultats à un nombre plus élevé. (Ou de manière équivalente, vous pouvez définir cela comme un problème de minimisation et attribuer un résultat plus élevé aux résultats les plus mauvais. Par exemple. Minimiser une notion d'erreur quadratique, etc.)

— Matthew Gunn

Optimisation des modèles informatiques stochastiques

Configuration de base:

Équivalence à maximiser l'utilité (sous certaines conditions techniques)

Donner plus de structure à la fonction d'utilité : Hypothèse d' utilité attendue :UUU

Une autre approche: poidsλλ\lambda

Donner plus de structure à la fonction d'utilité : Hypothèse d' utilité attendue : $U$

Une autre approche: poids $\lambda$