Résoudre l'équation Hamilton-Jacobi-Bellman; nécessaire et suffisant pour l'optimalité?

Considérons l'équation différentielle suivante où est l'état et la variable de contrôle. La solution est donnée par où est l'état initial donné.

\begin{aligned} \dot{x} (t) = f (x (t), u (t)) \end{aligned}

$\begin{align} \dot x(t)=f(x(t),u(t)) \end{align}$

x

$x$

u

$u$

\begin{aligned} x (t) = x_{0} + \int_{0}^{t} f (x (s), u (s)) d s . \end{aligned}

$\begin{align} x(t)=x_0 + \int^t_0f(x(s),u(s))ds. \end{align}$

x_{0} := x (0)

$x_0:=x(0)$

Considérons maintenant le programme suivant où indique la préférence temporelle, est la valeur et une fonction objective. Une application économique classique est le modèle Ramsey-Cass-Koopmans de croissance optimale. L'équation de Hamilton-Jacobi-Bellman est donnée par

\begin{aligned} V (x_{0}) := max_{u} \int_{0}^{\infty} e^{- ρ t} F (x (t), u (t)) d t \\ s . t . & \dot{x} (t) = f (x (t), u (t)) \\ x (0) = x_{0} \end{aligned}

$\begin{align} &V(x_0) := \max_u \int^\infty_0 e^{-\rho t}F(x(t),u(t))dt\\ s.t.~&\dot x(t)=f(x(t),u(t))\\ &x(0) = x_0 \end{align}$

ρ > 0

$\rho > 0$

V (\cdot)

$V(\cdot)$

F (\cdot)

$F(\cdot)$

\begin{aligned} ρ V (x) = max_{u} [F (x, u) + V^{'} (x) f (x, u)], \forall t \in [0, \infty) . \end{aligned}

$\begin{align} \rho V(x)=\max_u [F(x,u) + V'(x)f(x,u)],\quad \forall t\in[0,\infty). \end{align}$

Dire que je l' ai résolu le HJB pour $V$ . Le contrôle optimal est alors donné par

\begin{aligned} u^{*} = \arg max_{u} [F (x, u) + V^{'} (x) f (x, u)] . \end{aligned}

$\begin{align} u^*=\arg\max_u [F(x,u) + V'(x)f(x,u)]. \end{align}$ J'obtiendrai des trajectoires optimales pour l'état et le contrôle

{(x^{*} (t), u^{*} (t)) : t \in [0, \infty)}

$\{(x^*(t),u^*(t)):t\in[0,\infty)\}$ .

L' article du wiki dit

... mais lorsqu'elle est résolue sur l'ensemble de l'espace d'état, l'équation HJB est une condition nécessaire et suffisante pour un optimum.

Dans Bertsekas (2005) Dynamic Programming and Optimal Control , Vol 1, 3e éd., Dans la proposition 3.2.1, il déclare que la résolution de $V$ est la fonction optimale de coût à parcourir et que le associé $u^*$ est optimal. Cependant, il le déclare explicitement comme un théorème de suffisance.

En fait, je veux juste m'assurer que si j'ai résolu le HJB et récupéré l'état et les trajectoires de contrôle associés, je n'ai pas à me soucier de conditions d'optimalité supplémentaires.

Solution

Je tente

Je pense que j'ai pu dériver les conditions nécessaires du principe maximum par l'équation HJB elle-même.

Définissez l'hamiltonien

\begin{aligned} H (x, u, V^{'} (x)) := F (x, u) + V^{'} (x) f (x, u) \end{aligned}

$\begin{align} H(x,u,V'(x)) := F(x,u) + V'(x)f(x,u) \end{align}$

alors nous avons

\begin{aligned} ρ V (x) = max_{u} H (x, u, V^{'} (x)) \end{aligned}

$\begin{align} \rho V(x)=\max_u H(x,u,V'(x)) \end{align}$

qui est

\begin{aligned} ρ V (x) = H (x, u^{*}, V^{'} (x)) . \end{aligned}

$\begin{align} \rho V(x)= H(x,u^*,V'(x)). \end{align}$

Définissez une fonction arbitraire avec . Maintenant, corrigez $q:[0,\infty)\to\mathbb{R}$ $q(0)=\lim_{t\to\infty} q(t)=0$

\begin{aligned} x = x^{*} + ε q \end{aligned}

$\begin{align} x = x^*+\varepsilon q \end{align}$

où est un paramètre. Branchez le terme dans l'hamiltonien maximisé qui donne $\varepsilon\in\mathbb{R}$

\begin{aligned} ρ V (x^{*} + ε q) = H (x^{*} + ε q, u^{*}, V^{'} (x^{*} + ε q)) . \end{aligned}

$\begin{align} \rho V(x^*+\varepsilon q)= H(x^*+\varepsilon q,u^*,V'(x^*+\varepsilon q)). \end{align}$

À nous avons la solution optimale. Différenciez donc pour obtenir une condition de premier ordre $\varepsilon = 0$ $\varepsilon$

\begin{aligned} ρ V^{'} q = H_{x} q + H_{V^{'}} V^{″} q . \end{aligned}

$\begin{align} \rho V'q = H_x q + H_{V'}V''q. \end{align}$

Définissez maintenant la variable adjointe avec

\begin{aligned} λ = V^{'} (x) . \end{aligned}

$\begin{align} \lambda = V'(x). \end{align}$

Différencier au fil du temps

\begin{aligned} \dot{λ} = V^{″} \dot{x} . \end{aligned}

$\begin{align} \dot \lambda = V''\dot x. \end{align}$

et notez que

\begin{aligned} H_{V^{'}} = f (x, u) = \dot{x} . \end{aligned}

$\begin{align} H_{V'} = f(x,u) = \dot x. \end{align}$

Branchez tout dans la foc qui donne

\begin{aligned} ρ λ = H_{x} + \dot{λ} . \end{aligned}

$\begin{align} \rho \lambda = H_x + \dot \lambda. \end{align}$

C'est à peu près ça. La résolution du HJB est donc en effet nécessaire et suffisante (omise ici) pour l'optimalité. Quelqu'un devrait l'ajouter au wiki. Cela pourrait faire gagner du temps aux personnes qui pensent à de tels problèmes (ce ne sera pas beaucoup je pense).

Cependant, la condition de transversalité est manquante.

\begin{aligned} lim_{t \to \infty} e^{- ρ t} λ (t) = 0 \end{aligned}

$\begin{align} \lim_{t\to\infty} e^{-\rho t}\lambda(t) = 0 \end{align}$

II Tentative

Définissez la fonction de gain

\begin{aligned} J (u) := \int_{0}^{\infty} e^{- ρ t} F (x, u) d t \end{aligned}

$\begin{align} J(u):=\int^\infty_0 e^{-\rho t}F(x,u)dt \end{align}$

Notez que par définition de . Ajoutez le terme neutre à la fonction de gain

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ [f (x, u) - \dot{x}] d t = 0 \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda[f(x,u) - \dot x]dt} = 0 \end{align}$

\dot{x} = f (x, u)

$\dot x = f(x,u)$

\begin{aligned} J (u) & = \int_{0}^{\infty} e^{- ρ t} [F (x, u) + λ f (x, u)] d t - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \\ = \int_{0}^{\infty} e^{- ρ t} H (x, u, λ) - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \end{aligned}

$\begin{align} J(u)&=\int^\infty_0 e^{-\rho t}[F(x,u)+\lambda f(x,u)]dt - \int^\infty_0{e^{-\rho t}\lambda\dot xdt}\\ &=\int^\infty_0 e^{-\rho t}H(x,u,\lambda) - \int^\infty_0{e^{-\rho t}\lambda\dot xdt} \end{align}$

Intégration par des parties du terme droit sur les valeurs rhs

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t = [e^{- ρ t} λ (t) x (t)]_{0}^{\infty} - \int_{0}^{\infty} e^{- ρ t} x (\dot{λ} - ρ λ) d t \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda\dot xdt} = [e^{-\rho t}\lambda(t)x(t)]^\infty_0 - \int^\infty_0{e^{-\rho t}x(\dot \lambda-\rho\lambda)dt} \end{align}$

Remplacez ce terme

\begin{aligned} J (u) = \int_{0}^{\infty} e^{- ρ t} [H (x, u, λ) + x (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) x (t) + λ (0) x (0) \end{aligned}

$\begin{align} J(u)=\int^\infty_0 e^{-\rho t}[H(x,u,\lambda) + x(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)x(t) + \lambda(0)x(0) \end{align}$

Définissez

\begin{aligned} x & = x^{*} + ε q \\ u & = u^{*} + ε p \end{aligned}

$\begin{align} x &= x^*+\varepsilon q\\ u &= u^*+\varepsilon p \end{align}$

ce qui donne

\begin{aligned} J (ε) = \int_{0}^{\infty} e^{- ρ t} [H (x^{*} + ε q, u^{*} + ε p, λ) + (x^{*} + ε q) (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) [x^{*} (t) + ε q (t)] + λ (0) x (0) \end{aligned}

$\begin{align} J(\varepsilon)=\int^\infty_0 e^{-\rho t}[H(x^*+\varepsilon q,u^*+\varepsilon p,\lambda) + (x^*+\varepsilon q)(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)[x^*(t)+\varepsilon q(t)] + \lambda(0)x(0) \end{align}$

FOC pour maximum $J_\varepsilon = 0$

\begin{aligned} J_{ε} = \int_{0}^{\infty} e^{- ρ t} [H_{x} q + H_{u} p + q (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) q (t) = 0 \end{aligned}

$\begin{align} J_\varepsilon=\int^\infty_0 e^{-\rho t}[H_x q + H_u p + q(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)q(t) = 0 \end{align}$

Puisque et sont pas contraints, nous devons avoir $q$ $p$

\begin{aligned} H_{u} & = 0 \\ H_{x} & = ρ λ - \dot{λ} \\ lim_{t \to \infty} e^{- ρ t} λ (t) & = 0 \end{aligned}

$\begin{align} H_u &= 0\\ H_x &= \rho\lambda - \dot \lambda\\ \lim_{t\to\infty}e^{-\rho t}\lambda(t) &= 0 \end{align}$

mathematical-economics reference-request dynamic-programming

— Aucune idée
source

Avez-vous déjà identifié les conditions nécessaires et suffisantes?

— Jamzy

Dans quel contexte économique cela se pose-t-il?

— Stan Shunpike

Modèle Ramsey par exemple cer.ethz.ch/resec/people/tsteger/Ramsey_Model.pdf

— désemparés

Je pense que ce fil est mieux adapté à math.stackexchange.com car il n'est pas vraiment lié à econ. Un mod peut le transférer.

— désemparés

Je ne suis pas sûr de ce qui est demandé ici: si pour Bertsekas la résolution de HJB est suffisante , alors vous n'avez pas à vous "soucier des conditions d'optimalité supplémentaires". Le "suffisant seulement" contre "nécessaire et suffisant" se poserait si HJB n'était pas résolu - auquel cas on dirait "cela ne signifie pas qu'il n'y a pas de solution". Soit dit en passant, vos tentatives I et II sont un contenu précieux ici - le premier montrant un lien entre HJB et le contrôle optimal, le second montrant comment les FOC de contrôle optimal peuvent être dérivés.

— Alecos Papadopoulos

(Cela devrait peut-être être considéré comme un commentaire.)

Si vous avez résolu l'équation HJB, il suffit d'obtenir la solution optimale. Vous n'avez donc pas "à vous préoccuper d'autres conditions d'optimalité", ce qui, je crois, semble répondre à votre question.

Il semble que vous vous préoccupiez de la composante "nécessaire" du théorème. Le côté nécessité de l'énoncé est le suivant: s'il existe une solution optimale, il doit exister une solution à l'équation HJB.

Je n'ai pas travaillé avec ce problème particulier, mais la réponse en général est que nous ne nous attendons pas à avoir une fonction V. différentiable Par conséquent, nous n'avons pas de solution à l'équation telle qu'elle est énoncée. Au lieu de cela, nous devons examiner les dérivés généralisés et convertir l'équation HJB en une inégalité. Dans ce cas, vous pouvez obtenir une «solution de viscosité». Si nous étendons l'utilisation de dérivés généralisés, il peut être possible de prouver qu'une telle solution existe toujours. En jetant un coup d'œil à vos preuves, elles n'aideront pas aux conditions de nécessité, car vous supposez une différentiabilité.

— Brian Romanchuk
source