La partie clé du texte cité est:
Pour effectuer une relecture d'expérience, nous stockons les expériences de l'agent et=(st,at,rt,st+1)
Cela signifie qu'au lieu d'exécuter Q-learning sur des paires état / action lorsqu'elles se produisent pendant la simulation ou l'expérience réelle, le système stocke les données découvertes pour [état, action, récompense, état suivant] - généralement dans un grand tableau. Notez que cela ne stocke pas les valeurs associées - ce sont les données brutes à alimenter ultérieurement dans les calculs de valeur d'action.
La phase d'apprentissage est alors logiquement séparée de l'acquisition d'expérience et basée sur le prélèvement d'échantillons aléatoires dans ce tableau. Vous voulez toujours entrelacer les deux processus - agir et apprendre - parce que l'amélioration de la politique conduira à des comportements différents qui devraient explorer des actions plus proches de celles optimales, et vous voulez apprendre de celles-ci. Cependant, vous pouvez diviser cela comme vous le souhaitez - par exemple, faire un pas, apprendre de trois étapes antérieures aléatoires, etc. Les cibles Q-Learning lors de l'utilisation de la relecture d'expérience utilisent les mêmes cibles que la version en ligne, il n'y a donc pas de nouvelle formule pour cela. La formule de perte donnée est également celle que vous utiliseriez pour DQN sans relecture d'expérience. La différence est seulement quels s, a, r, s ', a' vous y introduisez.
Dans DQN, l'équipe DeepMind a également maintenu deux réseaux et changé celui qui apprenait et celui qui alimentait les estimations de valeur d'action actuelles en tant que "bootstraps". Cela a aidé à la stabilité de l'algorithme lors de l'utilisation d'un approximateur de fonction non linéaire. C'est ce que représente la barre dans - elle désigne la version gelée alternative des poids.θ ¯i
Avantages de la relecture d'expérience:
Une utilisation plus efficace de l'expérience précédente, en apprenant avec elle plusieurs fois. Ceci est essentiel lorsque l'acquisition d'une expérience dans le monde réel est coûteuse, vous pouvez en tirer pleinement parti. Les mises à jour de Q-learning sont incrémentielles et ne convergent pas rapidement, donc plusieurs passes avec les mêmes données sont bénéfiques, surtout quand il y a une faible variance dans les résultats immédiats (récompense, état suivant) étant donné le même état, la même paire d'actions.
Meilleur comportement de convergence lors de la formation d'un approximateur de fonction. Cela est dû en partie au fait que les données ressemblent davantage à des données iid supposées dans la plupart des preuves de convergence d'apprentissage supervisé.
Inconvénient de la relecture d'expérience:
- Il est plus difficile d'utiliser des algorithmes d'apprentissage en plusieurs étapes, tels que Q ( ), qui peuvent être ajustés pour donner de meilleures courbes d'apprentissage en équilibrant le biais (dû au bootstrap) et la variance (due aux retards et au caractère aléatoire des résultats à long terme). ). DQN en plusieurs étapes avec relecture d'expérience DQN est l'une des extensions explorées dans l'article Rainbow: Combining Improvements in Deep Reinforcement Learning .λ
L'approche utilisée dans DQN est brièvement décrite par David Silver dans certaines parties de cette conférence vidéo (vers 01:17:00, mais vaut la peine de voir des sections avant). Je vous recommande de regarder toute la série, qui est un cours de deuxième cycle sur l'apprentissage par renforcement, si vous en avez le temps.