Questions marquées «rl-an-introduction»

Pourquoi le taux d'actualisation dans l'algorithme REINFORCE apparaît-il deux fois?

Je lisais le livre Reinforcement Learning: An Introduction de Richard S. Sutton et Andrew G. Barto (ébauche complète, 5 novembre 2017). À la page 271, le pseudo-code de la méthode de gradient de politique Monte-Carlo épisodique est présenté. En regardant ce pseudo-code, je ne comprends pas pourquoi il semble que …

11 reinforcement-learning algorithm rl-an-introduction reinforce

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.

Licensed under cc by-sa 3.0 with attribution required.