Résoudre l'équation Hamilton-Jacobi-Bellman; nécessaire et suffisant pour l'optimalité?


13

Considérons l'équation différentielle suivante où est l'état et la variable de contrôle. La solution est donnée par où est l'état initial donné.

x˙(t)=f(x(t),u(t))
xu
x(t)=x0+0tf(x(s),u(s))ds.
x0:=x(0)

Considérons maintenant le programme suivant où \ rho> 0 indique la préférence temporelle, V (\ cdot) est la valeur et F (\ cdot) une fonction objective. Une application économique classique est le modèle Ramsey-Cass-Koopmans de croissance optimale. L'équation de Hamilton-Jacobi-Bellman est donnée par \ begin {align} \ rho V (x) = \ max_u [F (x, u) + V '(x) f (x, u)], \ quad \ forall t \ in [0, \ infty). \ end {align}

V(x0):=maxu0eρtF(x(t),u(t))dts.t. x˙(t)=f(x(t),u(t))x(0)=x0
ρ>0V()F()
ρV(x)=maxu[F(x,u)+V(x)f(x,u)],t[0,).

Dire que je l' ai résolu le HJB pour V . Le contrôle optimal est alors donné par

u=argmaxu[F(x,u)+V(x)f(x,u)].
J'obtiendrai des trajectoires optimales pour l'état et le contrôle {(x(t),u(t)):t[0,)} .

L' article du wiki dit

... mais lorsqu'elle est résolue sur l'ensemble de l'espace d'état, l'équation HJB est une condition nécessaire et suffisante pour un optimum.

Dans Bertsekas (2005) Dynamic Programming and Optimal Control , Vol 1, 3e éd., Dans la proposition 3.2.1, il déclare que la résolution de V est la fonction optimale de coût à parcourir et que le u ^ * associé uest optimal. Cependant, il le déclare explicitement comme un théorème de suffisance.

En fait, je veux juste m'assurer que si j'ai résolu le HJB et récupéré l'état et les trajectoires de contrôle associés, je n'ai pas à me soucier de conditions d'optimalité supplémentaires.

Solution

Je tente

Je pense que j'ai pu dériver les conditions nécessaires du principe maximum par l'équation HJB elle-même.

Définissez l'hamiltonien

H(x,u,V(x)):=F(x,u)+V(x)f(x,u)

alors nous avons

ρV(x)=maxuH(x,u,V(x))

qui est

ρV(x)=H(x,u,V(x)).

Définissez une fonction arbitraire avec . Maintenant, corrigez q:[0,)Rq(0)=limtq(t)=0

x=x+εq

où est un paramètre. Branchez le terme dans l'hamiltonien maximisé qui donne εR

ρV(x+εq)=H(x+εq,u,V(x+εq)).

À nous avons la solution optimale. Différenciez donc pour obtenir une condition de premier ordre ε=0ε

ρVq=Hxq+HVVq.

Définissez maintenant la variable adjointe avec

λ=V(x).

Différencier au fil du temps

λ˙=Vx˙.

et notez que

HV=f(x,u)=x˙.

Branchez tout dans la foc qui donne

ρλ=Hx+λ˙.

C'est à peu près ça. La résolution du HJB est donc en effet nécessaire et suffisante (omise ici) pour l'optimalité. Quelqu'un devrait l'ajouter au wiki. Cela pourrait faire gagner du temps aux personnes qui pensent à de tels problèmes (ce ne sera pas beaucoup je pense).

Cependant, la condition de transversalité est manquante.

limteρtλ(t)=0

II Tentative

Définissez la fonction de gain

J(u):=0eρtF(x,u)dt

Notez que par définition de . Ajoutez le terme neutre à la fonction de gain

0eρtλ[f(x,u)x˙]dt=0
x˙=f(x,u)
J(u)=0eρt[F(x,u)+λf(x,u)]dt0eρtλx˙dt=0eρtH(x,u,λ)0eρtλx˙dt

Intégration par des parties du terme droit sur les valeurs rhs

0eρtλx˙dt=[eρtλ(t)x(t)]00eρtx(λ˙ρλ)dt

Remplacez ce terme

J(u)=0eρt[H(x,u,λ)+x(λ˙ρλ)]dtlimteρtλ(t)x(t)+λ(0)x(0)

Définissez

x=x+εqu=u+εp

ce qui donne

J(ε)=0eρt[H(x+εq,u+εp,λ)+(x+εq)(λ˙ρλ)]dtlimteρtλ(t)[x(t)+εq(t)]+λ(0)x(0)

FOC pour maximumJε=0

Jε=0eρt[Hxq+Hup+q(λ˙ρλ)]dtlimteρtλ(t)q(t)=0

Puisque et sont pas contraints, nous devons avoir qp

Hu=0Hx=ρλλ˙limteρtλ(t)=0

Avez-vous déjà identifié les conditions nécessaires et suffisantes?
Jamzy

Dans quel contexte économique cela se pose-t-il?
Stan Shunpike


1
Je pense que ce fil est mieux adapté à math.stackexchange.com car il n'est pas vraiment lié à econ. Un mod peut le transférer.
désemparés

Je ne suis pas sûr de ce qui est demandé ici: si pour Bertsekas la résolution de HJB est suffisante , alors vous n'avez pas à vous "soucier des conditions d'optimalité supplémentaires". Le "suffisant seulement" contre "nécessaire et suffisant" se poserait si HJB n'était pas résolu - auquel cas on dirait "cela ne signifie pas qu'il n'y a pas de solution". Soit dit en passant, vos tentatives I et II sont un contenu précieux ici - le premier montrant un lien entre HJB et le contrôle optimal, le second montrant comment les FOC de contrôle optimal peuvent être dérivés.
Alecos Papadopoulos

Réponses:


1

(Cela devrait peut-être être considéré comme un commentaire.)

Si vous avez résolu l'équation HJB, il suffit d'obtenir la solution optimale. Vous n'avez donc pas "à vous préoccuper d'autres conditions d'optimalité", ce qui, je crois, semble répondre à votre question.

Il semble que vous vous préoccupiez de la composante "nécessaire" du théorème. Le côté nécessité de l'énoncé est le suivant: s'il existe une solution optimale, il doit exister une solution à l'équation HJB.

Je n'ai pas travaillé avec ce problème particulier, mais la réponse en général est que nous ne nous attendons pas à avoir une fonction V. différentiable Par conséquent, nous n'avons pas de solution à l'équation telle qu'elle est énoncée. Au lieu de cela, nous devons examiner les dérivés généralisés et convertir l'équation HJB en une inégalité. Dans ce cas, vous pouvez obtenir une «solution de viscosité». Si nous étendons l'utilisation de dérivés généralisés, il peut être possible de prouver qu'une telle solution existe toujours. En jetant un coup d'œil à vos preuves, elles n'aideront pas aux conditions de nécessité, car vous supposez une différentiabilité.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.