Questions marquées «markov-models»

4
Quelle est la différence entre l'itération de valeur et l'itération de politique?
Dans l'apprentissage par renforcement, quelle est la différence entre l'itération des politiques et l' itération des valeurs ? Autant que je sache, dans l'itération de la valeur, vous utilisez l'équation de Bellman pour résoudre la politique optimale, tandis que, dans l'itération de la politique, vous sélectionnez au hasard une politique …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.