Dériver l'équation de Bellman dans l'apprentissage par renforcement


Réponses:


7

Ceci est la réponse pour tous ceux qui se posent des questions sur les mathématiques propres et structurées (c'est-à-dire si vous appartenez au groupe de personnes qui sait ce qu'est une variable aléatoire et que vous devez montrer ou supposer qu'une variable aléatoire a une densité, alors c'est la réponse pour vous ;-)):

Tout d'abord, nous devons avoir que le processus de décision de Markov ne dispose que d'un nombre fini de -rancières, c'est-à-dire qu'il nous faut qu'il existe un ensemble fini de densités, chacune appartenant à variables, c'est-à-dire pour tout et une carte tels que (c'est-à-dire que dans les automates derrière le MDP, il peut y avoir une infinité d'états mais il n'y a qu'un nombre fini de distributions de récompenses attachées aux transitions éventuellement infinies entre les états)L1EL1Rxe(x)dx<eEF:A×SE

p(rt|at,st)=F(at,st)(rt)
L1

Théorème 1 : Soit (ie une variable aléatoire réelle intégrable) et soit une autre variable aléatoire telle que ont une densité commune puis XL1(Ω)YX,Y

E[X|Y=y]=Rxp(x|y)dx

Preuve : Essentiellement prouvé ici par Stefan Hansen.

Théorème 2 : Soit et soit autres variables aléatoires telles que ont une densité commune alors où est la plage de .XL1(Ω)Y,ZX,Y,Z

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
ZZ

Preuve :

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Mettez et mettez alors on peut montrer (en utilisant le fait que le MDP ne dispose que d'un nombre fini de ) que converge et que puisque la fonctionest toujours dans (c'est-à-dire intégrable), on peut également montrer (en utilisant la combinaison habituelle des théorèmes de convergence monotone puis de convergence dominée sur les équations définissant [les factorisations de] l'espérance conditionnelle) que Maintenant, on montre que Gt=k=0γkRt+kGt(K)=k=0KγkRt+kL1Gt(K)k=0γk|Rt+k|L1(Ω)

limKE[Gt(K)|St=st]=E[Gt|St=st]
E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1(K1)|St+1=st+1]dst+1
utilisant , Thm. 2 ci-dessus puis Thm. 1 sur puis en utilisant une guerre de marginalisation simple, on montre que pour tout . Maintenant, nous devons appliquer la limite des deux côtés de l'équation. Afin de tirer la limite dans l'intégrale sur l'espace d'état nous devons faire quelques hypothèses supplémentaires:Gt(K)=Rt+γGt+1(K1)E[Gt+1(K1)|St+1=s,St=st]p(rq|st+1,st)=p(rq|st+1)qt+1KS

Soit l'espace d'état est fini (alors et la somme est finie) ou toutes les récompenses sont toutes positives (alors nous utilisons la convergence monotone) ou toutes les récompenses sont négatives (puis nous mettons un signe moins devant le équation et utiliser à nouveau la convergence monotone) ou toutes les récompenses sont limitées (alors nous utilisons la convergence dominée). Ensuite (en appliquant aux deux côtés de l'équation de Bellman partielle / finie ci-dessus), nous obtenonsS=SlimK

E[Gt|St=st]=E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

puis le reste est une manipulation de densité habituelle.

REMARQUE: Même dans des tâches très simples, l'espace d'état peut être infini! Un exemple serait la tâche d'équilibrer un pôle. L'état est essentiellement l'angle du pôle (une valeur dans , un ensemble infiniment infini!)[0,2π)

REMARQUE: Les gens peuvent commenter la pâte, cette preuve peut être raccourcie beaucoup plus si vous utilisez directement la densité de et montrez que '... MAIS ... mes questions seraient:Gtp(gt+1|st+1,st)=p(gt+1|st+1)

  1. Comment se fait-il que vous sachiez même que a une densité?Gt+1
  2. Comment se fait-il que vous sachiez même que a une densité commune avec ?Gt+1St+1,St
  3. Comment -vous que ? Ce n'est pas seulement la propriété Markov: La propriété Markov ne vous dit que quelque chose sur les distributions marginales mais celles-ci ne déterminent pas nécessairement la distribution entière, voir par exemple les Gaussiennes multivariées!p(gt+1|st+1,st)=p(gt+1|st+1)

10

Soit la somme totale des récompenses actualisées après le temps : t
Gt=Rt+1+γRt+2+γ2Rt+3+...

La valeur d'utilité du démarrage dans l'état, au temps, est équivalente à la somme attendue des récompenses actualisées de l'exécution de la politique partir de l'état . Par définition de Par loi de linéarité En vertu de la loi dest
Rπs
Uπ(St=s)=Eπ[Gt|St=s]
=Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]Gt
=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]Attente totale Par définition de Par loi de linéarité
=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

En supposant que le processus satisfait la propriété de Markov:
probabilité de se retrouver dans l'état ayant commencé à partir de l'état et pris l'action , et récompense de se retrouver dans l'état ayant commencé à partir de l'état et pris l'action , Prssa
Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
Rssa
R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

Par conséquent, nous pouvons réécrire l'équation d'utilité ci-dessus comme,
=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

Où; : probabilité de prendre action dans l'état pour une politique stochastique. Pour la politique déterministe,π(a|s)asaπ(a|s)=1


Juste quelques notes: la somme sur est égale à 1 même dans une politique stochastique, mais dans une politique déterministe, il n'y a qu'une seule action qui reçoit le poids total (c.-à-d. et le reste recevoir 0 poids, de sorte que le terme est supprimé de l'équation. Également dans la ligne où vous avez utilisé la loi de l'espérance totale, l'ordre des conditions est inverséππ(a|s)=1
Gilad Peleg

1
Je suis presque sûr que cette réponse est incorrecte: suivons les équations jusqu'à la ligne impliquant la loi de l'espérance totale. Alors le côté gauche ne dépend pas de alors que le côté droit le fait ... C'est à dire si les équations sont correctes alors pour quels sont-elles correctes? Vous devez avoir une sorte d'intégrale sur déjà à ce stade. La raison en est probablement votre incompréhension de la différence entre (une variable aléatoire) et sa factorisation (une fonction déterministe!) ...sssE[X|Y]E[X|Y=y]
Fabian Werner

@FabianWerner Je suis d'accord que ce n'est pas correct. La réponse de Jie Shi est la bonne réponse.
teucer

@teucer Cette réponse peut être corrigée car il manque juste une "symétrisation", c'est-à-dire mais quand même, la question est la même que dans la réponse de Jie Shis: Pourquoi ? Ce n'est pas seulement la propriété de Markov car est un RV vraiment compliqué: converge-t-il même? Si oui, où? Quelle est la densité commune ? On ne connaît cette expression que pour les sommes finies (convolution compliquée) mais pour le cas infini? E[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1]Gt+1p(gt+1,st+1,st)
Fabian Werner

@FabianWerner ne sais pas si je peux répondre à toutes les questions. Ci-dessous quelques pointeurs. Pour la convergence du , étant donné qu'il s'agit de la somme des récompenses actualisées, il est raisonnable de supposer que la série converge (le facteur d'actualisation est et où il converge n'a pas vraiment d'importance). Je ne m'inquiète pas de la densité (on peut toujours définir une densité conjointe tant que nous avons des variables aléatoires), cela n'a d'importance que si elle est bien définie et dans ce cas, elle l'est. Gt+1<1
teucer

8

Voici ma preuve. Il est basé sur la manipulation de distributions conditionnelles, ce qui le rend plus facile à suivre. J'espère que celui-ci vous aidera.

vπ(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]=srgt+1ap(s,r,gt+1,a|s)(r+γgt+1)=ap(a|s)srgt+1p(s,r,gt+1|a,s)(r+γgt+1)=ap(a|s)srgt+1p(s,r|a,s)p(gt+1|s,r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
C'est la fameuse équation de Bellman.


Cela vous dérange-t-il d'expliquer un peu plus ce commentaire "Notez que ..."? Pourquoi ces variables aléatoires et les variables d'état et d'action ont-elles même une densité commune? Si oui, pourquoi connaissez-vous cette propriété que vous utilisez? Je peux voir que c'est vrai pour une somme finie mais si la variable aléatoire est une limite ... ??? Gt+1
Fabian Werner

Pour Fabian: Rappelons d'abord ce qu'est . . Notez que dépend uniquement directement de et puisque capture toutes les informations de transition d'un MDP (Plus précisément, est indépendant de tous les états, actions et récompenses avant l'instant étant donné et ). De même, ne dépend que de et . En conséquence, est indépendante de ,Gt+1Gt+1=Rt+2+Rt+3+Rt+2St+1At+1p(s,r|s,a)Rt+2t+1St+1At+1Rt+3St+2At+2Gt+1StAt, et étant donné , ce qui explique cette ligne. RtSt+1
Jie Shi

Désolé, cela ne fait que le «motiver», cela n'explique en fait rien. Par exemple: quelle est la densité de ? Pourquoi êtes-vous sûr que ? Pourquoi ces variables aléatoires ont-elles même une densité commune? Vous savez qu'une somme se transforme en une convolution en densités alors quoi ... devrait avoir une quantité infinie d'intégrales dans la densité ??? Il n'y a absolument aucun candidat pour la densité! Gt+1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
Fabian Werner

À Fabian: Je ne comprends pas votre question. 1. Vous voulez la forme exacte de la distribution marginale ? Je ne le sais pas et nous n'en avons pas besoin dans cette preuve. 2. pourquoi ? Parce que comme je l'ai mentionné plus tôt, et sont indépendants étant donné . 3. Qu'entendez-vous par «densité commune»? Vous voulez dire la distribution conjointe? Vous voulez savoir pourquoi ces variables aléatoires ont une distribution conjointe? Toutes les variables aléatoires de cet univers peuvent avoir une distribution conjointe. Si telle est votre question, je vous suggère de trouver un livre de théorie des probabilités et de le lire. p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
Jie Shi


2

Quelle est l'approche suivante?

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

Les sommes sont introduites afin de récupérer , et de . Après tout, les actions possibles et les prochains états possibles peuvent être. Avec ces conditions supplémentaires, la linéarité de l'attente conduit au résultat presque directement.asrs

Je ne suis pas sûr de la rigueur mathématique de mon argument. Je suis ouvert aux améliorations.


La dernière ligne fonctionne uniquement en raison de la propriété MDP.
teucer

2

Ceci est juste un commentaire / ajout à la réponse acceptée.

J'étais confus à la ligne où la loi de l'espérance totale est appliquée. Je ne pense pas que la principale forme de loi de l'attente totale puisse aider ici. Une variante de cela est en fait nécessaire ici.

Si sont des variables aléatoires et en supposant que toutes les attentes existent, alors l'identité suivante est vérifiée:X,Y,Z

E[X|Y]=E[E[X|Y,Z]|Y]

Dans ce cas, , et . ensuiteX=Gt+1Y=StZ=St+1

E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , qui, par la propriété de Markov, équivaut àE[E[Gt+1|St+1=s]|St=s]

De là, on pourrait suivre le reste de la preuve de la réponse.


1
Bienvenue sur CV! Veuillez utiliser les réponses uniquement pour répondre à la question. Une fois que vous avez suffisamment de réputation (50), vous pouvez ajouter des commentaires.
Frans Rodenburg

Merci. Oui, comme je n'ai pas pu commenter car je n'ai pas assez de réputation, j'ai pensé qu'il pourrait être utile d'ajouter l'explication aux réponses. Mais je garderai cela à l'esprit.
Mehdi Golari

J'ai voté positivement mais quand même, cette réponse manque de détails: même si satisfait cette folle relation alors personne ne garantit que cela est vrai pour les factorisations des attentes conditionnelles aussi! C'est-à-dire comme dans le cas avec la réponse de Ntabgoba: Le côté gauche ne dépend pas de tandis que le côté droit le fait . Cette équation ne peut pas être correcte! E[X|Y]s
Fabian Werner

1

dénote généralement l'attente en supposant que l'agent suit la politiqueπ. Dans ce cas,π(a | s)semble non déterministe, c'est-à-dire qu'il renvoie la probabilité que l'agent agissealorsqu'il est dans l'états.Eπ()ππ(a|s)as

Il semble que , en minuscules, remplace R t + 1 , une variable aléatoire. La deuxième attente remplace la somme infinie, pour refléter l'hypothèse que nous continuons à suivre π pour tout t futur . s , r r p ( s , r | s , a ) est alors la récompense immédiate attendue au pas de temps suivant; La deuxième attente - qui devient v π - est la valeur attendue de l'état suivant, pondérée par la probabilité de se retrouver dans l'état srRt+1πts,rrp(s,r|s,a)vπ Ayant pris un de l' al .sas

Ainsi, l'espérance tient compte de la probabilité politique ainsi que des fonctions de transition et de récompense, ici exprimées ensemble par .p(s,r|s,a)


Merci. Oui, ce que vous avez mentionné à propos de est correct (c'est la probabilité que l'agent agisse a lorsqu'il est dans l'état s ). π(a|s)as
Amelio Vazquez-Reina

Ce que je ne suis pas, c'est quels termes sont exactement développés en quels termes dans la deuxième étape (je connais la factorisation des probabilités et la marginalisation, mais pas tellement avec RL). Est-ce que le terme est élargi? C'est-à-dire ce qui exactement à l'étape précédente équivaut à quoi exactement à l'étape suivante? Rt
Amelio Vazquez-Reina

1
Il semble que , en minuscules, remplace R t + 1 , une variable aléatoire, et la deuxième attente remplace la somme infinie (probablement pour refléter l'hypothèse que nous continuons à suivre π pour tout t futur ). Σ p ( s , r | s , a ) r est alors la récompense immédiate attendue au pas de temps suivant, et la deuxième attente - qui devient v π - est la valeur attendue de l'état suivant, pondérée par la probabilité de remontage dans l'état s ' ayant prisrRt+1πtΣp(s,r|s,a)rvπs de l' art . as
Sean Easter

1

même si la bonne réponse a déjà été donnée et qu'un certain temps s'est écoulé, j'ai pensé que le guide étape par étape suivant pourrait être utile:
par linéarité de la valeur attendue, nous pouvons diviser E[Rt+1+γE[Gt+1|St=s]] en E[Rt+1|St=s] et γE[Gt+1|St=s] .
Je décrirai les étapes uniquement pour la première partie, car la deuxième partie suit par les mêmes étapes combinées avec la loi de l'attente totale.

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

Alors que (III) suit la forme:

P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]


1

Je sais qu'il existe déjà une réponse acceptée, mais je souhaite fournir une dérivation probablement plus concrète. Je voudrais également mentionner que bien que l'astuce @Jie Shi ait un certain sens, mais cela me met très mal à l'aise :(. Nous devons prendre en compte la dimension temporelle pour que cela fonctionne. Et il est important de noter que l'attente est en fait pris sur tout l'horizon infini, plutôt que juste sur s et s . Supposons que nous partions de t=0 (en fait, la dérivation est la même quel que soit le temps de départ; je ne veux pas contaminer les équations avec un autre indice k )

vπ(s0)=Eπ[G0|s0]G0=t=0T1γtRt+1Eπ[G0|s0]=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(t=0T1γtrt+1))=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(r1+γt=0T2γtrt+2))
NOTED THAT THE ABOVE EQUATION HOLDS EVEN IF T, IN FACT IT WILL BE TRUE UNTIL THE END OF UNIVERSE (maybe be a bit exaggerated :) )
At this stage, I believe most of us should already have in mind how the above leads to the final expression--we just need to apply sum-product rule(abcabcaabbcc) painstakingly. Let us apply the law of linearity of Expectation to each term inside the (r1+γt=0T2γtrt+2)

Part 1

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×r1)

Well this is rather trivial, all probabilities disappear (actually sum to 1) except those related to r1. Therefore, we have

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×r1

Part 2
Guess what, this part is even more trivial--it only involves rearranging the sequence of summations.

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at))=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)(a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))

And Eureka!! we recover a recursive pattern in side the big parentheses. Let us combine it with γt=0T2γtrt+2, and we obtain vπ(s1)=Eπ[G1|s1]

γEπ[G1|s1]=a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1))(γt=0T2γtrt+2)

and part 2 becomes
a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×γvπ(s1)

Part 1 + Part 2

vπ(s0)=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))

And now if we can tuck in the time dimension and recover the general recursive formulae

vπ(s)=aπ(a|s)s,rp(s,r|s,a)×(r+γvπ(s))

Final confession, I laughed when I saw people above mention the use of law of total expectation. So here I am


Erm... what is the symbol 'a0,...,a' supposed to mean? There is no a...
Fabian Werner

Another question: Why is the very first equation true? I know E[f(X)|Y=y]=Xf(x)p(x|y)dx but in our case, X would be an infinite sequence of random variables (R0,R1,R2,........) so we would need to compute the density of this variable (consisting of an infinite amount of variables of which we know the density) together with something else (namely the state)... how exactly do you du that? I.e. what is p(r0,r1,....)?
Fabian Werner

@FabianWerner. Take a deep breath to calm your brain first:). Let me answer your first question. a0,...,aa0a1,...,a. If you recall the definition of the value function, it is actually a summation of discounted future rewards. If we consider an infinite horizon for our future rewards, we then need to sum infinite number of times. A reward is result of taking an action from a state, since there is an infinite number of rewards, there should be an infinite number of actions, hence a.
Karlsson Yu

1
let us assume that I agree that there is some weird a (which I still doubt, usually, students in the very first semester in math tend to confuse the limit with some construction that actually involves an infinite element)... I still have one simple question: how is “a1...a defined? I know what this expression is supposed to mean with a finite amount of sums... but infinitely many of them? What do you understand that this expression does?
Fabian Werner

1
internet. Could you refer me to a page or any place that defines your expression? If not then you actually defined something new and there is no point in discussing that because it is just a symbol that you made up (but there is no meaning behind it)... you agree that we are only able to discuss about the symbol if we both know what it means, right? So, I do not know what it means, please explain...
Fabian Werner

1

There are already a great many answers to this question, but most involve few words describing what is going on in the manipulations. I'm going to answer it using way more words, I think. To start,

Gtk=t+1Tγkt1Rk

is defined in equation 3.11 of Sutton and Barto, with a constant discount factor 0γ1 and we can have T= or γ=1, but not both. Since the rewards, Rk, are random variables, so is Gt as it is merely a linear combination of random variables.

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]

That last line follows from the linearity of expectation values. Rt+1 is the reward the agent gains after taking action at time step t. For simplicity, I assume that it can take on a finite number of values rR.

Work on the first term. In words, I need to compute the expectation values of Rt+1 given that we know that the current state is s. The formula for this is

Eπ[Rt+1|St=s]=rRrp(r|s).

In other words the probability of the appearance of reward r is conditioned on the state s; different states may have different rewards. This p(r|s) distribution is a marginal distribution of a distribution that also contained the variables a and s, the action taken at time t and the state at time t+1 after the action, respectively:

p(r|s)=sSaAp(s,a,r|s)=sSaAπ(a|s)p(s,r|a,s).

Where I have used π(a|s)p(a|s), following the book's convention. If that last equality is confusing, forget the sums, suppress the s (the probability now looks like a joint probability), use the law of multiplication and finally reintroduce the condition on s in all the new terms. It in now easy to see that the first term is

Eπ[Rt+1|St=s]=rRsSaArπ(a|s)p(s,r|a,s),

as required. On to the second term, where I assume that Gt+1 is a random variable that takes on a finite number of values gΓ. Just like the first term:

Eπ[Gt+1|St=s]=gΓgp(g|s).()

Once again, I "un-marginalize" the probability distribution by writing (law of multiplication again)

p(g|s)=rRsSaAp(s,r,a,g|s)=rRsSaAp(g|s,r,a,s)p(s,r,a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s)p(s,r|a,s)π(a|s)()

The last line in there follows from the Markovian property. Remember that Gt+1 is the sum of all the future (discounted) rewards that the agent receives after state s. The Markovian property is that the process is memory-less with regards to previous states, actions and rewards. Future actions (and the rewards they reap) depend only on the state in which the action is taken, so p(g|s,r,a,s)=p(g|s), by assumption. Ok, so the second term in the proof is now

γEπ[Gt+1|St=s]=γgΓrRsSaAgp(g|s)p(s,r|a,s)π(a|s)=γrRsSaAEπ[Gt+1|St+1=s]p(s,r|a,s)π(a|s)=γrRsSaAvπ(s)p(s,r|a,s)π(a|s)

as required, once again. Combining the two terms completes the proof

vπ(s)Eπ[GtSt=s]=aAπ(a|s)rRsSp(s,r|a,s)[r+γvπ(s)].

UPDATE

I want to address what might look like a sleight of hand in the derivation of the second term. In the equation marked with (), I use a term p(g|s) and then later in the equation marked () I claim that g doesn't depend on s, by arguing the Markovian property. So, you might say that if this is the case, then p(g|s)=p(g). But this is not true. I can take p(g|s,r,a,s)p(g|s) because the probability on the left side of that statement says that this is the probability of g conditioned on s, a, r, and s. Because we either know or assume the state s, none of the other conditionals matter, because of the Markovian property. If you do not know or assume the state s, then the future rewards (the meaning of g) will depend on which state you begin at, because that will determine (based on the policy) which state s you start at when computing g.

If that argument doesn't convince you, try to compute what p(g) is:

p(g)=sSp(g,s)=sSp(g|s)p(s)=sSp(g|s)s,a,rp(s,a,r,s)=sSp(g|s)s,a,rp(s,r|a,s)p(a,s)=sSp(s)sSp(g|s)a,rp(s,r|a,s)π(a|s)sSp(s)p(g|s)=sSp(g,s)=p(g).

As can be seen in the last line, it is not true that p(g|s)=p(g). The expected value of g depends on which state you start in (i.e. the identity of s), if you do not know or assume the state s.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.