Questions marquées «policy-iteration»

2
Pourquoi l'algorithme d'itération de politique converge-t-il vers une fonction de politique et de valeur optimale?
Je lisais les notes de cours d' Andrew Ng sur l'apprentissage par renforcement et j'essayais de comprendre pourquoi l'itération des politiques convergeait vers la fonction de valeur optimale et la politique optimale .V∗V∗V^*π∗π∗\pi^* L'itération de la politique de rappel est: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.