1
Quelle est la relation entre le Q-learning et les méthodes de gradients politiques?
Pour autant que je sache, le Q-learning et les gradients de politique (PG) sont les deux principales approches utilisées pour résoudre les problèmes de RL. Alors que le Q-learning vise à prédire la récompense d'une certaine action entreprise dans un certain état, les gradients politiques prédisent directement l'action elle-même. Cependant, …