Questions marquées «reinforcement-learning»

Pour les questions liées à l'apprentissage contrôlé par un renforcement positif externe ou un signal de rétroaction négatif ou les deux, où l'apprentissage et l'utilisation de ce qui a été appris jusqu'à présent se produisent simultanément.


1
Quelle est la relation entre le Q-learning et les méthodes de gradients politiques?
Pour autant que je sache, le Q-learning et les gradients de politique (PG) sont les deux principales approches utilisées pour résoudre les problèmes de RL. Alors que le Q-learning vise à prédire la récompense d'une certaine action entreprise dans un certain état, les gradients politiques prédisent directement l'action elle-même. Cependant, …






1
Pourquoi ne voyez-vous pas de couches de décrochage sur les exemples d'apprentissage de renforcement?
Je me suis penché sur l'apprentissage par renforcement, et plus particulièrement sur la création de mes propres environnements à utiliser avec l'OpenAI Gym AI. J'utilise des agents du projet stable_baselines pour tester avec lui. Une chose que j'ai remarquée dans pratiquement tous les exemples RL est qu'il ne semble jamais …



2
Pourquoi Q-learning ne converge-t-il pas lors de l'utilisation de l'approximation de fonction?
L'algorithme tabulaire d'apprentissage Q est garanti pour trouver la fonction QQQ optimale , Q∗Q∗Q^* , à condition que les conditions suivantes (les conditions Robbins-Monro ) concernant le taux d'apprentissage soient remplies ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty où αt(s,a)αt(s,a)\alpha_t(s, a) signifie le taux d'apprentissage utilisé lors …



1
Comment appliquer des gradients de politique dans le cas de plusieurs actions continues?
Trusted Region Policy Optimization (TRPO) et Proximal Policy Optimization (PPO) sont deux algorithmes de gradients de politique de pointe. Lorsque vous utilisez une seule action continue, normalement, vous utiliseriez une distribution de probabilité (par exemple, gaussienne) pour la fonction de perte. La version approximative est: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, où …

3
La politique optimale est-elle toujours stochastique si l'environnement est également stochastique?
La politique optimale est-elle toujours stochastique (c'est-à-dire une carte des états vers une distribution de probabilité sur les actions) si l'environnement est également stochastique? Intuitivement, si l'environnement est déterministe (c'est-à-dire si l'agent est dans un état sss et prend l'action aunea , alors l'état suivant s′s′s' est toujours le même, …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.