Pour les questions liées à l'apprentissage contrôlé par un renforcement positif externe ou un signal de rétroaction négatif ou les deux, où l'apprentissage et l'utilisation de ce qui a été appris jusqu'à présent se produisent simultanément.
Quelle est la différence entre l'apprentissage par renforcement sans modèle et basé sur le modèle? Il me semble que tout apprenant sans modèle, apprenant par essais et erreurs, pourrait être recadré comme basé sur un modèle. Dans ce cas, quand les apprenants sans modèle seraient-ils appropriés?
Pour autant que je sache, le Q-learning et les gradients de politique (PG) sont les deux principales approches utilisées pour résoudre les problèmes de RL. Alors que le Q-learning vise à prédire la récompense d'une certaine action entreprise dans un certain état, les gradients politiques prédisent directement l'action elle-même. Cependant, …
Je veux créer une IA qui peut jouer à cinq dans une rangée / gomoku. Comme je l'ai mentionné dans le titre, je veux utiliser l'apprentissage par renforcement pour cela. J'utilise la méthode du gradient de politique , à savoir REINFORCE, avec la ligne de base. Pour l'approximation de la …
J'étudie l'apprentissage par renforcement et ses variantes. Je commence à comprendre comment les algorithmes fonctionnent et comment ils s'appliquent à un MDP. Ce que je ne comprends pas, c'est le processus de définition des états du MDP. Dans la plupart des exemples et des didacticiels, ils représentent quelque chose de …
Par exemple, le titre de cet article se lit comme suit: "Exemple d'acteur-critique efficace avec expérience Replay". Qu'est-ce que l' efficacité de l'échantillon et comment peut- on utiliser un échantillonnage d'importance pour y parvenir?
Existe-t-il un moyen d'enseigner l'apprentissage par renforcement dans des applications autres que les jeux? Les seuls exemples que je peux trouver sur Internet sont des agents de jeu. Je comprends que VNC contrôle l'entrée des jeux via le réseau de renforcement. Est-il possible de configurer cela avec, disons, un logiciel …
Je code un modèle d'apprentissage par renforcement avec un agent PPO grâce à la très bonne bibliothèque Tensorforce , construite au-dessus de Tensorflow. La première version était très simple et je plonge maintenant dans un environnement plus complexe où toutes les actions ne sont pas disponibles à chaque étape. Disons …
Je me suis penché sur l'apprentissage par renforcement, et plus particulièrement sur la création de mes propres environnements à utiliser avec l'OpenAI Gym AI. J'utilise des agents du projet stable_baselines pour tester avec lui. Une chose que j'ai remarquée dans pratiquement tous les exemples RL est qu'il ne semble jamais …
Lors de la conception de solutions à des problèmes tels que l' atterrissage lunaire sur OpenAIGym , l'apprentissage par renforcement est un moyen tentant de donner à l'agent un contrôle d'action adéquat pour réussir son atterrissage. Mais dans quels cas les algorithmes des systèmes de contrôle, tels que les contrôleurs …
J'étais en train de passer par cette implémentation de DQN et je vois que sur les lignes 124 et 125 deux réseaux Q différents ont été initialisés. D'après ma compréhension, je pense qu'un réseau prédit l'action appropriée et le deuxième réseau prédit les valeurs Q cibles pour trouver l'erreur Bellman. …
L'algorithme tabulaire d'apprentissage Q est garanti pour trouver la fonction QQQ optimale , Q∗Q∗Q^* , à condition que les conditions suivantes (les conditions Robbins-Monro ) concernant le taux d'apprentissage soient remplies ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty où αt(s,a)αt(s,a)\alpha_t(s, a) signifie le taux d'apprentissage utilisé lors …
Je lisais le livre Reinforcement Learning: An Introduction de Richard S. Sutton et Andrew G. Barto (ébauche complète, 5 novembre 2017). À la page 271, le pseudo-code de la méthode de gradient de politique Monte-Carlo épisodique est présenté. En regardant ce pseudo-code, je ne comprends pas pourquoi il semble que …
En tant qu'étudiant qui souhaite travailler sur l'apprentissage automatique, je voudrais savoir comment il est possible de commencer mes études et comment le suivre pour rester à jour. Par exemple, je suis prêt à travailler sur les problèmes de RL et de MAB, mais il existe une énorme littérature sur …
Trusted Region Policy Optimization (TRPO) et Proximal Policy Optimization (PPO) sont deux algorithmes de gradients de politique de pointe. Lorsque vous utilisez une seule action continue, normalement, vous utiliseriez une distribution de probabilité (par exemple, gaussienne) pour la fonction de perte. La version approximative est: L(θ)=log(P(a1))A,L(θ)=log(P(a1))A,L(\theta) = \log(P(a_1)) A, où …
La politique optimale est-elle toujours stochastique (c'est-à-dire une carte des états vers une distribution de probabilité sur les actions) si l'environnement est également stochastique? Intuitivement, si l'environnement est déterministe (c'est-à-dire si l'agent est dans un état sss et prend l'action aunea , alors l'état suivant s′s′s' est toujours le même, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.