2
Une politique est-elle toujours déterministe dans l'apprentissage par renforcement?
Dans l'apprentissage par renforcement, une politique est-elle toujours déterministe ou est-ce une distribution de probabilité sur les actions (à partir desquelles nous échantillonnons)? Si la politique est déterministe, pourquoi pas la fonction valeur, qui est définie à un état donné pour une politique donnée comme suitππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 …