Questions marquées «deterministic-policy»

2
Une politique est-elle toujours déterministe dans l'apprentissage par renforcement?
Dans l'apprentissage par renforcement, une politique est-elle toujours déterministe ou est-ce une distribution de probabilité sur les actions (à partir desquelles nous échantillonnons)? Si la politique est déterministe, pourquoi pas la fonction valeur, qui est définie à un état donné pour une politique donnée comme suitππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.