En robotique, la technique d'apprentissage par renforcement est utilisée pour trouver le modèle de contrôle d'un robot. Malheureusement, la plupart des méthodes de gradient politique sont biaisées statistiquement, ce qui pourrait mettre le robot dans une situation dangereuse, voir page 2 dans Jan Peters et Stefan Schaal: Renforcement de l'apprentissage des habiletés motrices avec des gradients politiques, 2008
Avec l'apprentissage moteur primitif, il est possible de surmonter le problème car l'optimisation des paramètres de gradient de politique dirige les étapes d'apprentissage vers l'objectif.
citation: «Si l'estimation du gradient est impartiale et que les taux d'apprentissage atteignent la somme (a) = 0, le processus d'apprentissage est garanti de converger vers au moins un minimum local [...] Par conséquent, nous devons estimer le gradient politique uniquement à partir des données générées lors de l'exécution d'une tâche. »(Page 4 du même article)
Dans les devoirs pour le problème 1 de la classe Berkeley RL , il vous demande de montrer que le gradient de politique est toujours non biaisé si la ligne de base soustraite est une fonction de l'état au pas de temps t.
J'ai du mal à savoir quelle pourrait être la première étape d'une telle preuve. Quelqu'un peut me diriger dans la bonne direction? Ma pensée initiale était d'utiliser en quelque sorte la loi de l'espérance totale pour subordonner l'attente de b (st) à T, mais je ne suis pas sûr. Merci d'avance :)