Un modèle de contrôle optimal: un résultat fastidieux pour un état stable


7

J'essayais avec un problème de contrôle optimal apparemment simple qui génère un système d'équations différentielles. Lorsque je calcule les valeurs de l’état d’équilibre du système, j’obtiens des résultats très étranges. Je crois que j’ai commis une erreur en appliquant le principe maximum. Si vous êtes assez patient pour lire un texte, je vous serais reconnaissant d’écouter vos suggestions sur ce qui pourrait mal tourner.

Notation

J'utilise un indice chaque fois qu'une variable dépend du temps. Par exemple,tAt(x1,x2):=A(x1,x2,t)

Installer

Imaginez une économie fermée avec une fonction de production linéaire. La quantité de biens produits dépend du niveau du capital humain et une dotation fixe ressource . Ainsi,AtR

Yt:=AtR

L'économie que nous imaginons a un environnement peu sûr et peut être attaquée au hasard avec une probabilité de (exogène). Chaque fois qu'un pays est attaqué, il perd une partie de ses revenus. Je note la part restante . La part des revenus protégés dépend du montant des dépenses militaires que le pays a augmenté du niveau de capital humain accumulé:pqt

qt:=11αAtmMt

Je suppose que Ainsi, plus les dépenses militaires sont importantes, plus le revenu actuel est sûr. Notez que les dépenses militaires permettent de mieux protéger, tant que .m < 1m[0,1]m<1

Compte tenu de tout cela, supposons que l’économie produise 3 types de biens: les biens de consommation , les biens militaires et le capital humain . Supposons, pour simplifier, que est la seule variable qui s’accumule lorsque des biens de consommation et des biens militaires sont consommés instantanément à chaque instant. Si l’on s’accorde sur ce point, l’équation du mouvement du capital humain peut être exprimée par la moyenne pondérée des revenus du pays moins les dépenses de consommation, les dépenses militaires et la dépréciation du capital humain:M t A t A tCtMtAtAt

A˙t=pqtYtPost-war income+(1p)YtNo-war incomeCtMtδAt

En supposant que toutes les variables appartiennent à la droite réelle positive, en plus , une fonction utilitaire concave et "attribuant" une certaine valeur initiale du capital humain on peut formuler le problème de contrôle optimal suivant: At,Mt>0U(Ct)>0,U(Ct)<0A(t=0)=A0

maxCt,Mt0U(Ct)eρtdt

En mots: maximiser l'utilité sur l'horizon infini de la consommation de direction et militaire.

Tels que: Et la condition de transversalité:

A˙t=p(11αAtmMt)AtR+(1p)AtRCtMtδAt
limt>eρtλtAt=0

Hamiltonien et solution

L’hamiltonien de valeur actuelle se présente comme ( ): μt=λteρt

Hc=U(Ct)+μt(p(11αAtmMt)AtR+(1p)AtRCtMtδAt)

Chiang (1992) soutient que si l'hamiltonien est non linéaire dans les variables de contrôle et d'état, on déduit les conditions de premier ordre en prenant des dérivées de l'hamiltonien et en les fixant à zéro.

HcCt:U(Ct)μt=0

HcCt:μt(pAt1mR1αMt21)=0

μ˙t=ρμtμt(pRm1αAtmMt+Rδ)

Les expressions pour et forment un système d'équations différentielles. Mais interpréter \ dot {\ mu} _t est contre-intuitif. Au lieu de cela, on différencie généralement le FOC de consommation en fonction du temps et \ dot {\ mu} _t de l'équation du mouvement. Puisque , on peut se débarrasser de dans . Pourtant, le système sera composé de deux équations et trois variables , , .μ˙tA˙tU(C)t=μ˙tU(Ct)=μtμtC˙tC˙t,A˙tAtCtMt

{C˙t=U(Ct)U(Ct)(pRm1αAtmMt+Rδρ)A˙t=AtRAt1mpRMtCtMtδAt

J'ai besoin d'un moyen d'exprimer en fonction d'autres variables ou paramètres. Ainsi, je prends le second FOC, le corrige à zéro ( l’option car ) et dérive en fonction de :Mtμt=0μt=U(Ct)>0MtAtMt:=At1m2pRα

J'impute dans le système ci-dessus, définit et calcule les expressions pour l'état stationnaire. En rejetant la solution triviale , les valeurs d'équilibre suivantes:MtC˙t=A˙t=0Ct=0

Capital humain

A¯t=(pRα(1m)2(Rδρ)2)11+m

Militaire

Mt¯=(pRα(1m)2(Rδρ)2)1m2(1+m)pRα

Consommation

Ct¯=(pRα(1m)2(Rδρ)2)11+m(Rδ)(pRα(1m)2(Rδρ)2)1m2(1+m)αpR(1+1α)

L'expression pour la consommation semble maladroite. Il est en effet! Lorsque j'ai essayé de calculer les valeurs de consommation en fonction de paramètres plus ou moins raisonnables ( , , , , ), j'ai obtenu des nombres négatifs . Une capture d'écran de Mathematica illustrant (axe vertical) en fonction de (axe horizontal):p=0.052m=0.21δ=0.242α=2.54ρ=1.48CtRConsommation à l'état stable avec $ p = 0.052 $, $ m = 0.21 $, $ \ delta = 0.242 $, $ \ alpha = 2.54 $, $ \ rho = 1.48 $

Je ne m'attends pas à ce que l'introduction de droits de propriété non sécurisés modifie la consommation à l'état stable en valeurs négatives compte tenu d'une fonction de production linéaire. Il semble que j’ai mal appliqué l’algorithme Maximum Principle, mais je ne peux pas comprendre quelle est ma faute. Quelqu'un pourrait-il m'indiquer ce qui n'allait pas? Des idées? PS Vous êtes un héros si vous lisez jusqu'à la fin :)

MISE À JOUR: Comme certaines personnes l’ont suggéré, le principe maximal échoue car j’applique la méthode déterministe à un modèle stochastique. C'est une préoccupation légitime. J'ai décidé de vérifier si la méthode fonctionnait si je posais (ce qui impliquait l'infiniment long scénario de guerre pour l'économie).p=1

Les équations canoniques avec la spécification ressemblent à ceci:

HcCt:U(Ct)μt=0

HcCt:μt(pAt1mR1αMt21)=0

μ˙t=ρμtμt(RR1mαAtmMtδ)

J'ai procédé avec la solution comme avant et obtenu le système dynamique suivant (en supposant que :U(Ct)=lnCt

{C˙t=Ct(RR1mαAtmMt+Rδρ)A˙t=AtRAt1mRMtCtMtδAt

Résoudre pour l'état d'équilibre. Voici mes valeurs d'équilibre pour le capital humain, l'armée et la consommation.

A¯=((1m)2(Rδρ)2Rα)11+m

M¯=(Rα)1/2((1m)2(Rδρ)2Rα)1m2(1+m)

C¯=(Rδ)((1m)2(Rδρ)2Rα)11+m2(Rα)1/2((1m)2(Rδρ)2Rα)1m2(1+m)

J'ai simulé les valeurs de nouveau. Voici ce que je reçois: CtConsommation (axe vertical) en fonction de la dotation en ressources (axe horizontal)

Différentes équations, mais image similaire. La nature stochastique du modèle n’est donc pas le seul problème. Peut-être me manque quelque chose comme une solution bang-bang ici? Ou peut-être qu'il n'existe tout simplement pas dans le cas?


Bienvenue sur le site. Lorsque vous avez calculé la consommation, quelle valeur avez-vous prise pour ? R
Adam Bailey

Merci pour un commentaire. J'ai oublié de mentionner que le graphique que vous voyez représente la consommation en fonction de la dotation en ressources. . est sur l'axe vertical et est sur l'axe horizontal. s'étend de 0 à 10 000.Ct=g(R)CRR
Artem Kochnev

@ArtemKochnev, comme le souligne Alecos dans sa réponse ci-dessous, je ne pense pas que cela puisse être formulé comme un problème de contrôle déterministe. Votre choix entre et induit un processus de saut pour lequel vous aurez besoin des outils de la théorie du contrôle stochastique. Il existe un analogue du principe de Pontryagin pour le contrôle stochastique, mais vous aurez besoin d'outils assez sophistiqués pour y parvenir. MC
Économiste théorique

Merci :) Je pense que vous avez raison sur ce point, mais cela aurait dû disparaître après le calcul du régime permanent dans une version déterministe du modèle ( ). Pourtant, je rencontre le même problème. Voir la mise à jour ci-dessus. p=1
Artem Kochnev

Réponses:


4

Un problème général que je vois est que vous essayez d’inclure l’incertitude dans un cadre élaboré pour une configuration déterministe.

Ce que vous faites est d'utiliser le revenu attendu dans l'équation du mouvement pour le capital humain. Soit la fonction indicatrice d'attaque, en prenant la valeur lorsqu'il y a attaque et la valeur lorsqu'il n'y en a pas. Ensuite, correctementIa,t10

A˙t=Ia,tqtYtPost-war income+(1Ia,t)YtNo-war incomeCtMtδAt

et ce que vous utilisez dans votre modèle est . Hmm ..., je ne suis pas sûr que ce soit aussi simple ... Avez-vous examiné les mécanismes du contrôle optimal stochastique en temps continu?E(A˙t)

En dehors de cela, je vois également deux valeurs de paramètre qui sont étranges dans votre simulation, sauf s'il y a quelque chose que vous ne nous dites pas.

1) signifie une dépréciation de % du capital humain par période. Quelle est votre "période" ici? Certes, il s’agit d’un temps continu, mais pour évaluer les résultats de la simulation et voir s’ils ont un sens, vous devez déterminer une longueur discrète de la "période". Une valeur annuelle de référence serait , alors la vôtre correspond à une période d'environ 7 ans.δ=0.24224.2δ=0.04

2) Le taux de préférence temporelle pure égale à ?? Comment avez-vous obtenu une valeur supérieure à l'unité? ... Pour une période annuelle, la valeur de référence est . Donc, si nous voulons être cohérents avec la période implicite de 7 ans pour le taux d’amortissement, il devrait être d’environ . Donc, pour être cohérent avec le paramètre , vous devez changer .ρ=1.48ρ=0.02ρ=0.132δρ

Mais cela n’affectera pas le résultat, comme le montrent clairement vos équations, d’autant plus que vérifie les très grandes valeurs comparées.R

Enfin, et en ignorant tout ce qui précède, ce n’est pas le fait que vous ayez introduit les "droits de propriété non sécurisés", c’est la forme fonctionnelle spécifique que vous avez choisie pour les incorporer dans le modèle, qui pose apparemment tous les problèmes. Les formes mathématiques sont des outils et même lorsque nous disposons de nombreux outils raisonnables (la spécification de la fonction n’est pas déraisonnable), ils ne conviennent pas tous pour tous les modèles. qt

Il existe de nombreuses autres manières d’inclure les «droits de propriété non sécurisés» - par exemple: vous pouvez faire valoir que les dépenses militaires ont une incidence sur la probabilité d’une attaque. Vous pouvez choisir de ne pas inclure le capital humain dans l'expression de . Etc.qt

Donc, si le problème de la manière dont vous gérez l'incertitude en principe (mon premier commentaire) n'est pas un problème après tout, alors vous devriez simplement changer la façon dont vous modélisez la probabilité d'attaque et / ou la perte de sortie due à l'attaque.

Rappelez-vous que vous êtes en train de construire un modèle - et que ce modèle doit être conforme à la réalité et à la raison, et non l'inverse. Et étant donné que la consommation à l'état stable diminuant de manière monotone dans la dotation en ressources exogènes n’est ni raisonnable ni réaliste, vous devez modifier votre modèle. Ce n'est pas le cas que vous venez de découvrir une loi surprenante sur le comportement humain (pas encore du moins).

Il serait intéressant d’obtenir un résultat non-monotone - disons que la consommation de ss ait un minimum ou un maximum en - qui serait vraiment tentant.R


Merci pour un commentaire. Je ne l'ai probablement pas beaucoup insisté: ce qui m'inquiète, c'est que le résultat n'a pas de sens. Je n'avais pas l'intention de dire "Regarde: j'ai trouvé une loi de la nature ridicule". Bien sûr que non :) Et depuis que j'ai un résultat si confus, je pensais avoir fait quelque chose de mal. Concernant votre suggestion sur le contrôle stochastique. Je pense que tu as raison en principe. Cependant, vérifiez mes résultats dans le modèle déterministe que je montre dans la mise à jour: j'ai toujours le même problème. Ainsi, il est probable que je manque quelque chose d'autre.
Artem Kochnev

@ArtemKochnev L'autre chose que j'ai écrite dans ma réponse est que vous devriez changer la façon dont vous modélisez la fonction en ce qui concerne sa forme fonctionnelle et les arguments qu'elle inclut. Votre choix actuel pour sa forme fonctionnelle donne des résultats non sensuels et doit donc être abandonné. qt
Alecos Papadopoulos
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.