Questions marquées «policy-gradients»

1
Quelle est la relation entre le Q-learning et les méthodes de gradients politiques?
Pour autant que je sache, le Q-learning et les gradients de politique (PG) sont les deux principales approches utilisées pour résoudre les problèmes de RL. Alors que le Q-learning vise à prédire la récompense d'une certaine action entreprise dans un certain état, les gradients politiques prédisent directement l'action elle-même. Cependant, …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.