2
Pourquoi l'algorithme d'itération de politique converge-t-il vers une fonction de politique et de valeur optimale?
Je lisais les notes de cours d' Andrew Ng sur l'apprentissage par renforcement et j'essayais de comprendre pourquoi l'itération des politiques convergeait vers la fonction de valeur optimale et la politique optimale .V∗V∗V^*π∗π∗\pi^* L'itération de la politique de rappel est: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's …