La notation que j'utiliserai provient de deux conférences différentes de David Silver et est également informée par ces diapositives .
L'équation de Bellman attendue est
vπ( s ) =∑a ∈ Aπ( a | s ) (Runes+ γ∑s′∈ SPuness′vπ(s′) )(1)
Si nous laissons
Pπss′=∑a ∈ Aπ( a | s )Puness′( 2 )
et
Rπs=∑a ∈ Aπ( a | s )Runes( 3 )
alors nous pouvons réécrire ( 1 ) comme
vπ( s ) =Rπs+ γ∑s′∈ SPπss′vπ(s′)( 4 )
Cela peut être écrit sous forme de matrice
⎡⎣⎢⎢vπ( 1 )⋮vπ( n )⎤⎦⎥⎥=⎡⎣⎢⎢Rπ1⋮Rπn⎤⎦⎥⎥+ γ⎡⎣⎢⎢Pπ11⋮Pπn 1…⋱…Pπ1 n⋮Pπn n⎤⎦⎥⎥⎡⎣⎢⎢vπ( 1 )⋮vπ( n )⎤⎦⎥⎥(5)
Ou, de façon plus compacte,
vπ=Rπ+ γPπvπ( 6 )
Notez que les deux côtés de ( 6 ) sont n-vecteurs dimensionnels. Icin = | S|est la taille de l'espace d'état. On peut alors définir un opérateurTπ:Rn→Rn comme
Tπ( v ) =Rπ+ γPπv( 7 )
pour toute v ∈Rn. Il s'agit de l'opérateur Bellman attendu.
De même, vous pouvez réécrire l'équation d'optimalité de Bellman
v∗( s ) =maxa ∈ A(Runes+ γ∑s′∈ SPuness′v∗(s′) )(8)
comme opérateur d'optimalité Bellman
T∗( v ) =maxa ∈ A(Rune+ γPunev )( 9 )
Les opérateurs Bellman sont des "opérateurs" en ce sens qu'ils sont des correspondances d'un point à un autre dans l'espace vectoriel des valeurs d'état, Rn.
La réécriture des équations de Bellman en opérateurs est utile pour prouver que certains algorithmes de programmation dynamique (par exemple, itération de politique, itération de valeur) convergent vers un point fixe unique. Cette utilité se présente sous la forme d'un corpus de travaux existants en théorie des opérateurs, qui nous permet d'utiliser les propriétés spéciales des opérateurs de Bellman.
Plus précisément, le fait que les opérateurs de Bellman soient des contractions donne des résultats utiles qui, pour toute politiqueπ et tout vecteur initial v,
limk→∞(Tπ)kv=vπ(10)
limk→∞(T∗)kv=v∗(11)
où vπ est la valeur de la politique π et v∗ est la valeur d'une politique optimale π∗. La preuve est due au théorème de cartographie de contraction .