Vue d'ensemble des algorithmes d'apprentissage par renforcement

Je recherche actuellement un aperçu des algorithmes d'apprentissage par renforcement et peut-être une classification de ceux-ci. Mais à côté de Sarsa et Q-Learning + Deep Q-Learning, je ne trouve pas vraiment d'algorithmes populaires.

Wikipedia me donne un aperçu des différentes méthodes générales d'apprentissage par renforcement, mais il n'y a aucune référence à différents algorithmes mettant en œuvre ces méthodes.

Mais je suis peut-être en train de confondre les approches générales et les algorithmes et, fondamentalement, il n'y a pas de véritable classification dans ce domaine, comme dans d'autres domaines de l'apprentissage automatique. Quelqu'un peut-il peut-être me donner une courte introduction ou seulement une référence où je pourrais commencer à lire dans les différentes approches, les différences entre elles et les exemples d'algorithmes qui mettent en œuvre ces approches?

reinforcement-learning q-learning

— Grèce57
source

Connexes: Ressources pour commencer avec l'apprentissage par renforcement profond

— Franck Dernoncourt

Il y a un bon document d'enquête ici .

$\pi$

Ces méthodes incluent l'algorithme REINFORCE populaire, qui est un algorithme de gradients de politique. TRPO et GAE sont des algorithmes de gradients de politique similaires.

Il existe de nombreuses autres variantes sur les gradients de politique et il peut être combiné avec Q-learning dans le cadre acteur-critique. L'algorithme A3C - acteur-critique à avantage asynchrone - est un de ces algorithmes acteur-critique, et une base de référence très solide dans l'apprentissage par renforcement.

$\pi$

En plus du Q-learning et des gradients de politique, qui sont tous deux appliqués dans des paramètres sans modèle (aucun des deux algorithmes ne maintient un modèle du monde), il existe également des méthodes basées sur des modèles qui estiment l'état du monde. Ces modèles sont précieux car ils peuvent être beaucoup plus efficaces en termes d'échantillonnage.

Les algorithmes basés sur des modèles ne sont pas exclusifs avec des gradients de politique ou Q-learning. Une approche courante consiste à effectuer une estimation d'état / apprendre un modèle dynamique, puis à former une politique au-dessus de l'état estimé.

Pour une classification, une ventilation serait

Apprentissage des fonctions Q ou V
Méthodes basées sur des politiques
Basé sur un modèle

Les méthodes fondées sur des politiques peuvent en outre être subdivisées en

Gradients de politique
Critique d'acteur
Recherche de politique

— shimao
source