3
Pourquoi le taux d'actualisation dans l'algorithme REINFORCE apparaît-il deux fois?
Je lisais le livre Reinforcement Learning: An Introduction de Richard S. Sutton et Andrew G. Barto (ébauche complète, 5 novembre 2017). À la page 271, le pseudo-code de la méthode de gradient de politique Monte-Carlo épisodique est présenté. En regardant ce pseudo-code, je ne comprends pas pourquoi il semble que …