Intelligence artificielle reinforcement-learning

6

Quelle est la différence entre l'apprentissage par renforcement sans modèle et basé sur le modèle?

Quelle est la différence entre l'apprentissage par renforcement sans modèle et basé sur le modèle? Il me semble que tout apprenant sans modèle, apprenant par essais et erreurs, pourrait être recadré comme basé sur un modèle. Dans ce cas, quand les apprenants sans modèle seraient-ils appropriés?

29 reinforcement-learning comparison model-based model-free

1

Quelle est la relation entre le Q-learning et les méthodes de gradients politiques?

Pour autant que je sache, le Q-learning et les gradients de politique (PG) sont les deux principales approches utilisées pour résoudre les problèmes de RL. Alors que le Q-learning vise à prédire la récompense d'une certaine action entreprise dans un certain état, les gradients politiques prédisent directement l'action elle-même. Cependant, …

21 reinforcement-learning q-learning policy-gradients comparison

4

Comment gérer les mouvements invalides dans l'apprentissage par renforcement?

Je veux créer une IA qui peut jouer à cinq dans une rangée / gomoku. Comme je l'ai mentionné dans le titre, je veux utiliser l'apprentissage par renforcement pour cela. J'utilise la méthode du gradient de politique , à savoir REINFORCE, avec la ligne de base. Pour l'approximation de la …

20 machine-learning reinforcement-learning game-ai combinatorial-games

2

Comment définir les états dans l'apprentissage par renforcement?

J'étudie l'apprentissage par renforcement et ses variantes. Je commence à comprendre comment les algorithmes fonctionnent et comment ils s'appliquent à un MDP. Ce que je ne comprends pas, c'est le processus de définition des états du MDP. Dans la plupart des exemples et des didacticiels, ils représentent quelque chose de …

14 reinforcement-learning

2

Qu'est-ce que l'efficacité de l'échantillon et comment peut-on utiliser un échantillonnage d'importance pour y parvenir?

Par exemple, le titre de cet article se lit comme suit: "Exemple d'acteur-critique efficace avec expérience Replay". Qu'est-ce que l' efficacité de l'échantillon et comment peut- on utiliser un échantillonnage d'importance pour y parvenir?

14 reinforcement-learning statistical-ai importance-sampling

3

Existe-t-il des applications d'apprentissage par renforcement autres que les jeux?

Existe-t-il un moyen d'enseigner l'apprentissage par renforcement dans des applications autres que les jeux? Les seuls exemples que je peux trouver sur Internet sont des agents de jeu. Je comprends que VNC contrôle l'entrée des jeux via le réseau de renforcement. Est-il possible de configurer cela avec, disons, un logiciel …

13 reinforcement-learning applications

3

Comment mettre en place un espace d'action contraint dans l'apprentissage par renforcement?

Je code un modèle d'apprentissage par renforcement avec un agent PPO grâce à la très bonne bibliothèque Tensorforce , construite au-dessus de Tensorflow. La première version était très simple et je plonge maintenant dans un environnement plus complexe où toutes les actions ne sont pas disponibles à chaque étape. Disons …

13 deep-learning reinforcement-learning

1

Pourquoi ne voyez-vous pas de couches de décrochage sur les exemples d'apprentissage de renforcement?

Je me suis penché sur l'apprentissage par renforcement, et plus particulièrement sur la création de mes propres environnements à utiliser avec l'OpenAI Gym AI. J'utilise des agents du projet stable_baselines pour tester avec lui. Une chose que j'ai remarquée dans pratiquement tous les exemples RL est qu'il ne semble jamais …

13 machine-learning reinforcement-learning overfitting dropout

1

Quand dois-je utiliser l'apprentissage par renforcement par rapport au contrôle PID?

Lors de la conception de solutions à des problèmes tels que l' atterrissage lunaire sur OpenAIGym , l'apprentissage par renforcement est un moyen tentant de donner à l'agent un contrôle d'action adéquat pour réussir son atterrissage. Mais dans quels cas les algorithmes des systèmes de contrôle, tels que les contrôleurs …

12 reinforcement-learning ai-design control-theory

1

Pourquoi DQN nécessite-t-il deux réseaux différents?

J'étais en train de passer par cette implémentation de DQN et je vois que sur les lignes 124 et 125 deux réseaux Q différents ont été initialisés. D'après ma compréhension, je pense qu'un réseau prédit l'action appropriée et le deuxième réseau prédit les valeurs Q cibles pour trouver l'erreur Bellman. …

12 reinforcement-learning q-learning dqn

2

Pourquoi Q-learning ne converge-t-il pas lors de l'utilisation de l'approximation de fonction?

L'algorithme tabulaire d'apprentissage Q est garanti pour trouver la fonction QQQ optimale , Q∗Q∗Q^* , à condition que les conditions suivantes (les conditions Robbins-Monro ) concernant le taux d'apprentissage soient remplies ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty où αt(s,a)αt(s,a)\alpha_t(s, a) signifie le taux d'apprentissage utilisé lors …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

3

Pourquoi le taux d'actualisation dans l'algorithme REINFORCE apparaît-il deux fois?

Je lisais le livre Reinforcement Learning: An Introduction de Richard S. Sutton et Andrew G. Barto (ébauche complète, 5 novembre 2017). À la page 271, le pseudo-code de la méthode de gradient de politique Monte-Carlo épisodique est présenté. En regardant ce pseudo-code, je ne comprends pas pourquoi il semble que …

11 reinforcement-learning algorithm rl-an-introduction reinforce

1

Comment rester un chercheur à jour dans la communauté ML / RL?

En tant qu'étudiant qui souhaite travailler sur l'apprentissage automatique, je voudrais savoir comment il est possible de commencer mes études et comment le suivre pour rester à jour. Par exemple, je suis prêt à travailler sur les problèmes de RL et de MAB, mais il existe une énorme littérature sur …

11 machine-learning reinforcement-learning research markov-decision-process

1

Comment appliquer des gradients de politique dans le cas de plusieurs actions continues?

Trusted Region Policy Optimization (TRPO) et Proximal Policy Optimization (PPO) sont deux algorithmes de gradients de politique de pointe. Lorsque vous utilisez une seule action continue, normalement, vous utiliseriez une distribution de probabilité (par exemple, gaussienne) pour la fonction de perte. La version approximative est: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, où …

11 deep-learning reinforcement-learning trpo

3

La politique optimale est-elle toujours stochastique si l'environnement est également stochastique?

La politique optimale est-elle toujours stochastique (c'est-à-dire une carte des états vers une distribution de probabilité sur les actions) si l'environnement est également stochastique? Intuitivement, si l'environnement est déterministe (c'est-à-dire si l'agent est dans un état sss et prend l'action aunea , alors l'état suivant s′s′s' est toujours le même, …

10 reinforcement-learning stochastic-policy deterministic-policy policy environment

Questions marquées «reinforcement-learning»