Pourquoi l'expérience de relecture nécessite un algorithme hors stratégie?

Dans le document présentant DQN " Jouer à Atari avec l'apprentissage par renforcement profond ", il mentionnait:

Notez que lors de l'apprentissage par rejeu d'expérience, il est nécessaire d'apprendre hors politique (car nos paramètres actuels sont différents de ceux utilisés pour générer l'échantillon), ce qui motive le choix du Q-learning.

Je n'ai pas bien compris ce que cela signifie. Que se passe-t-il si nous utilisons SARSA et nous souvenons de l'action a'pour l'action que nous devons effectuer dans s'notre mémoire, puis en échantillonnons des lots et mettons à jour Q comme nous l'avons fait dans DQN? Et, les méthodes d'acteur-critique (A3C, pour spécifique) peuvent-elles utiliser la relecture d'expérience? Sinon, pourquoi?

reinforcement-learning

— DarkZero
source

Les méthodes sur la politique, comme SARSA, s'attendent à ce que les actions dans chaque état soient choisies en fonction de la politique actuelle de l'agent, qui a généralement tendance à exploiter les récompenses.

Ce faisant, la politique s'améliore lorsque nous mettons à jour notre politique en fonction des dernières récompenses. Ici en particulier, ils mettent à jour les paramètres du NN qui prédit la valeur d'un certain état / action).

Mais, si nous mettons à jour notre politique en fonction des transitions stockées, comme dans la relecture d'expérience, nous évaluons en fait les actions d'une politique qui n'est plus la politique actuelle, car elle a évolué dans le temps, ce qui ne la rend plus sur la politique.

Les valeurs Q sont évaluées en fonction des futures récompenses que vous obtiendrez d'un état suivant la politique actuelle de l'agent.

Cependant, ce n'est plus vrai puisque vous suivez maintenant une politique différente. Ils utilisent donc une méthode hors politique commune qui explore en se basant sur une approche epsilon-gourmande.

— dante
source

Merci, mais je ne comprends toujours pas ceci: si j'utilise la règle de mise à jour TD (0), je me souviens d'une transition (s, a, r, s')et je tire cette expérience pour la rejouer; Supposons maintenant que ma politique actuelle dit que vous devriez prendre a'sur s', puis marque je Q(s, a)doit être r + Q(s', a')et faire une descente de gradient. Je pense que je fais l'expérience de rejouer sur la politique. Y a-t-il un problème avec le processus?

— DarkZero

Je crois que le problème est que, puisque vous utilisez maintenant une politique différente qu'auparavant, et que l'action est choisie en utilisant l'ancienne politique, vous ne pouvez pas vraiment dire que c'est sur la politique: pour évaluer correctement la valeur Q d'une politique vous devez faire de nombreuses actions avec celui-ci. Ici, vous essayez d'évaluer une stratégie actuelle à l'aide d'une action que cette stratégie n'a pas pu choisir.

— dante

Alors, puis-je dire que je le fais hors politique ici? Quel en sera le résultat, en théorie?

— DarkZero

Donc, si je vous comprends bien, il faut soit utiliser des méthodes hors politique comme le Q-learning, toujours choisir le max Q comme récompense future attendue. Peu importe l'action actuelle, car c'est une propriété de Q d'apprendre que si vous choisissez toujours le Q max pour l'avenir, Q convergera vers Q dans une politique optimale; Ou il doit franchement suivre une politique, choisir chaque action, y compris les futures via cette politique, et faire une mise à jour sur la politique. Est-ce correct?

— DarkZero

Jusqu'à présent, je ne comprends pas pourquoi les méthodes sur les politiques sont bonnes. Les méthodes hors politique semblent avoir plus de liberté et elles peuvent découvrir la politique optimale par elle-même. Pourriez-vous également répondre à stats.stackexchange.com/questions/265354/… ? Merci beaucoup pour toutes les discussions.

— DarkZero

David Silver aborde ce sujet dans cette conférence vidéo à 46:10 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : La relecture d'expérience choisit parmi les utilisant la politique en vigueur à l'époque, et c'est l'un de ses avantages - il permet la fonction Q pour apprendre des politiques précédentes, ce qui rompt la corrélation des états et politiques récents et empêche le réseau de se "verrouiller" dans un certain mode de comportement. $a$ $s$

— dilaudid
source