Conditions de convergence des politiques et des algorithmes d'itération de valeurs

8

Des algorithmes d'itération de politiques et de valeurs peuvent être utilisés pour résoudre des problèmes de processus de décision de Markov. J'ai du mal à comprendre les conditions nécessaires à la convergence. Si la politique optimale ne change pas pendant deux étapes (c'est-à-dire pendant les itérations i et i + 1 ), peut-on conclure que les algorithmes ont convergé? Sinon, alors quand?

algorithms markov-process convergence

— ELEC
source

3

Pour répondre à votre question, permettez-moi d'abord d'écrire quelques (in) égalités importantes.

Équation d'optimalité de Bellman:

$\begin{aligned} v_{*} (s) & = max_{a} E [R_{t + 1} + γ v_{*} (S_{t + 1}) ∣ S_{t} = s, A_{t} = a] \\ = max_{a} \sum_{s^{'}} p (s^{'} ∣ s, a) [r (s, a, s^{'}) + γ v_{*} (s^{'})] \end{aligned}$ $\begin{align} v_∗(s) &= \max_{a} \mathbb{E}[R_{t+1} + \gamma v_* (S_{t+1}) \mid S_t =s, A_t =a] \\ &= \max_{a} \sum_{s'}p(s'\mid s, a) \biggl[r(s, a, s') + \gamma v_∗(s')\biggl] \end{align}$
où $v_*(.)$ est la fonction de valeur optimale.

Théorème d'amélioration des politiques ( Pit ):

Soit et n'importe quelle paire de politiques déterministes telles que, pour tout , Alors la politique doit être aussi bon ou meilleur que . Autrement dit, il doit obtenir un retour attendu supérieur ou égal de tous les états . $\pi$ $\pi'$ $s \in S$ $q_\pi(s, \pi'(s)) \geq v_\pi(s)$ $\pi'$ $\pi$ $s \in S: v_{\pi'} (s) \geq v_\pi(s)$

(voir à la page 89 de Sutton & Barto, Renforcement de l'apprentissage: un livre d' introduction )

Nous pouvons améliorer une politique à chaque état par la règle suivante: $\pi$

\begin{aligned} π^{'} (s) & = \arg max_{a} q_{π} (s, a) \\ = \arg max_{a} \sum_{s^{'}} p (s^{'} ∣ s, a) [r (s, a, s^{'}) + γ v_{π} (s^{'})] \end{aligned}

$\begin{align} \pi'(s) &= \arg \max_{a}q_π(s, a)\\ &= \arg \max_{a} \sum_{s'}p(s' \mid s, a)\biggl[r(s, a, s') + \gamma v_\pi(s')\biggl] \end{align}$

Notre nouvelle politique satisfait la condition de Pit et est donc aussi bonne ou meilleure que . Si est aussi bon, mais pas meilleur que , alors pour tous les . De notre définition de nous déduisons que: $\pi'$ $\pi$ $\pi'$ $\pi$ $v_{\pi'}(s)=v_{\pi}(s)$ $s$ $\pi'$

\begin{aligned} v_{π^{'}} (s) & = max_{a} E [R_{t + 1} + γ v_{π^{'}} (S_{t + 1}) ∣ S_{t} = s, A_{t} = a] \\ = max_{a} \sum_{s^{'}} p (s^{'} ∣ s, a) [r (s, a, s^{'}) + γ v_{π^{'}} (s^{'})] \end{aligned}

$\begin{align} v_{\pi'}(s)&=\max_{a} \mathbb{E}\biggl[R_{t+1} + \gamma v_{ \pi'}(S_{t+1}) \mid S_t =s, A_t =a \biggl]\\ &= \max_{a}\sum_{s'}p(s' \mid s, a) \biggl[r(s, a, s') + \gamma v_{π'}(s') \biggl] \end{align}$

Mais cette égalité est la même que l'équation d'optimalité de Bellman, donc doit être égal à . $v_{\pi'}$ $v_*$

D'après ce qui précède, il est clair, espérons-le, que si nous améliorons une politique et obtenons la même fonction de valeur que nous avions auparavant, la nouvelle politique doit être l'une des politiques optimales. Pour plus d'informations, voir Sutton & Barto (2012)

— Jan Vainer
source

1

Vous avez raison: soit l'estimation de la fonction de la valeur actuelle, soit l'estimation de la politique actuelle peut décrire complètement l'état de l'algorithme. Chacun implique un prochain choix unique pour l'autre. À partir du document lié ci-dessous,

"L'itération de stratégie se poursuit jusqu'à ce que ." $V_{n+1} = V_n, α_{n+1} = α_n$

https://editorialexpress.com/jrust/research/siam_dp_paper.pdf

— eric_kernfeld
source