Questions marquées «q-learning»

1
Quelle est la relation entre le Q-learning et les méthodes de gradients politiques?
Pour autant que je sache, le Q-learning et les gradients de politique (PG) sont les deux principales approches utilisées pour résoudre les problèmes de RL. Alors que le Q-learning vise à prédire la récompense d'une certaine action entreprise dans un certain état, les gradients politiques prédisent directement l'action elle-même. Cependant, …


2
Pourquoi Q-learning ne converge-t-il pas lors de l'utilisation de l'approximation de fonction?
L'algorithme tabulaire d'apprentissage Q est garanti pour trouver la fonction QQQ optimale , Q∗Q∗Q^* , à condition que les conditions suivantes (les conditions Robbins-Monro ) concernant le taux d'apprentissage soient remplies ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty où αt(s,a)αt(s,a)\alpha_t(s, a) signifie le taux d'apprentissage utilisé lors …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.