Intelligence artificielle policy-gradients

Questions marquées «policy-gradients»

Quelle est la relation entre le Q-learning et les méthodes de gradients politiques?

Pour autant que je sache, le Q-learning et les gradients de politique (PG) sont les deux principales approches utilisées pour résoudre les problèmes de RL. Alors que le Q-learning vise à prédire la récompense d'une certaine action entreprise dans un certain état, les gradients politiques prédisent directement l'action elle-même. Cependant, …

21 reinforcement-learning q-learning policy-gradients comparison