Pourquoi la ligne de base est-elle conditionnelle à l'état à un pas de temps non biaisé?

En robotique, la technique d'apprentissage par renforcement est utilisée pour trouver le modèle de contrôle d'un robot. Malheureusement, la plupart des méthodes de gradient politique sont biaisées statistiquement, ce qui pourrait mettre le robot dans une situation dangereuse, voir page 2 dans Jan Peters et Stefan Schaal: Renforcement de l'apprentissage des habiletés motrices avec des gradients politiques, 2008

Avec l'apprentissage moteur primitif, il est possible de surmonter le problème car l'optimisation des paramètres de gradient de politique dirige les étapes d'apprentissage vers l'objectif.

citation: «Si l'estimation du gradient est impartiale et que les taux d'apprentissage atteignent la somme (a) = 0, le processus d'apprentissage est garanti de converger vers au moins un minimum local [...] Par conséquent, nous devons estimer le gradient politique uniquement à partir des données générées lors de l'exécution d'une tâche. »(Page 4 du même article)

Dans les devoirs pour le problème 1 de la classe Berkeley RL , il vous demande de montrer que le gradient de politique est toujours non biaisé si la ligne de base soustraite est une fonction de l'état au pas de temps t.

▽_{θ} \sum_{t = 1}^{T} E_{(s_{t}, a_{t}) \sim p (s_{t}, a_{t})} [b (s_{t})] = 0

$\triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0$

J'ai du mal à savoir quelle pourrait être la première étape d'une telle preuve. Quelqu'un peut me diriger dans la bonne direction? Ma pensée initiale était d'utiliser en quelque sorte la loi de l'espérance totale pour subordonner l'attente de b (st) à T, mais je ne suis pas sûr. Merci d'avance :)

_{lien vers le png original de l'équation}

reinforcement-learning

— Laura C
source

Bienvenue dans SE: AI! (J'ai pris la liberté de convertir l'équation en MathJax. Le .png original est lié en bas.)

— DukeZhou

Je n'ai pas vraiment le temps d'écrire les équations exactes et de les formater (peut-être plus tard s'il n'y a toujours pas de réponse) avec LaTeX mais voici un indice. Vous voulez que la somme ne dépende pas de la politique de sorte que la dérivée soit 0. Donc, vous essayez en quelque sorte d'exprimer des choses en utilisant la politique p (s, a). La réponse btw peut également être trouvée dans le livre d'introduction de Sutton RL dans le chapitre gradient politique.

— Hai Nguyen

Merci beaucoup! Je vais utiliser cette astuce pour commencer, ainsi que je vous remercie de m'avoir dit que c'était à Sutton RL. Je lis ce livre et il est assez excellent!

— Laura C

@LauraC si vous trouvez la réponse avant tout le monde, merci de revenir et de poster ici une réponse formelle (les gens aiment vraiment cette question :)

— DukeZhou

J'ai ajouté des informations de contexte pour la question.

— Manuel Rodriguez

Réponses:

En utilisant la loi des attentes répétées, on a:

$\triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = \nabla_\theta \sum_{t=1}^T \mathbb{E}_{s_t \sim p(s_t)} \left[ \mathbb{E}_{a_t \sim \pi_\theta(a_t | s_t)} \left[ b(s_t) \right]\right] =$

écrit avec des intégrales et en déplaçant le gradient à l'intérieur (linéarité) vous obtenez

$= \sum_{t=1}^T \int_{s_t} p(s_t) \left(\int_{a_t} \nabla_\theta b(s_t) \pi_\theta(a_t | s_t) da_t \right)ds_t =$

vous pouvez maintenant déplacer (en raison de la linéarité) et (ne dépend pas de ) former l'intégrale intérieure à l'extérieur: $\nabla_\theta$ $b(s_t)$ $a_t$

$= \sum_{t=1}^T \int_{s_t} p(s_t) b(s_t) \nabla_\theta \left(\int_{a_t} \pi_\theta(a_t | s_t) da_t \right)ds_t=$

$\pi_\theta(a_t | s_t)$ est une fonction de densité de probabilité (conditionnelle), donc l'intégration sur tout pour un état fixe donné est égal à : $a_t$ $s_t$ $1$

$= \sum_{t=1}^T \int_{s_t} p(s_t) b(s_t) \nabla_\theta 1 ds_t =$

Maintenant , ce qui conclut la preuve. $\nabla_\theta1 = 0$

— Andrei Poehlmann
source

Il semble que les devoirs étaient dus deux jours avant la rédaction de cette réponse, mais dans le cas où ils sont toujours pertinents d'une manière ou d'une autre, les notes de classe pertinentes (qui auraient été utiles si elles avaient été fournies dans la question avec les devoirs) sont ici .

La première instance d'attente placée sur l'étudiant est: "Veuillez montrer l'équation 12 en utilisant la loi des attentes itérées, brisant en découplant l'action d'état marginal du reste de la trajectoire. " L'équation 12 est la suivante. $\mathbb{E}_{\tau \sim p \theta(\tau)}$

$\sum_{t = 1}^{T} E_{\tau \sim p \theta(\tau)} [\nabla_\theta \log \pi_\theta(a_t|s_t)(b(s_t))] = 0$

Les notes de classe identifient comme marginal d'action d'état. Ce n'est pas une preuve recherchée, mais une séquence d'étapes algébriques pour effectuer le découplage et montrer dans quelle mesure l'indépendance du marginal action-État peut être atteinte. $\pi_\theta(a_t|s_t)$

Cet exercice est une préparation pour la prochaine étape des devoirs et se fonde uniquement sur l'examen du CS189, le cours d'introduction à l'apprentissage automatique de Burkeley, qui ne contient pas la loi de l'attente totale dans son programme ou ses notes de classe.

Toutes les informations pertinentes sont dans le lien ci-dessus pour les notes de classe et ne nécessitent que l'algèbre intermédiaire.

— Douglas Daseeco
source