Réponses:
Aux bonnes réponses ici, j'ajouterais
Un bref aperçu de RL : les concepts les plus essentiels en un seul endroit.
Un autre bref aperçu , sous forme de présentation.
La tournée de Ben Recht An outsider de RL est assez complète et accessible.
Les équations de Bellman : au cœur de toute la théorie RL.
Gradients de politique expliqués par Andrej Karpathy (mentionné dans d'autres réponses comme "pong des pixels", c'est le lien).
Ceux-ci rayent à peine la surface de RL, mais ils devraient vous aider à démarrer.
Il y a une playlist Youtube (dans la chaîne DeepMind ) dont le titre est Introduction à l'apprentissage par renforcement , qui est un cours (de 10 leçons) sur l'apprentissage par renforcement par David Silver .
Une personne qui a suivi et terminé le cours a écrit (comme un commentaire Youtube):
Excellent cours. Bien rythmé, suffisamment d'exemples pour fournir une bonne intuition, et enseigné par quelqu'un qui dirige le domaine dans l'application du RL aux jeux.
Avant cela, demandez-vous si vous voulez vraiment en savoir plus sur «l'apprentissage par renforcement». Bien qu'il y ait beaucoup de battage médiatique sur l'apprentissage par renforcement, l'applicabilité dans le monde réel de l'apprentissage par renforcement est presque inexistante. La plupart des cours en ligne vous en apprennent très peu sur l'apprentissage automatique, il est donc préférable de l'approfondir plutôt que de passer à l'apprentissage par renforcement. L'apprentissage par renforcement est quelque peu différent de l'apprentissage des techniques d'apprentissage non supervisé / supervisé.
Cela dit, le moyen le plus rapide d'avoir une bonne compréhension de l'apprentissage par renforcement est le suivant:
Lisez le billet de blog d'Andrej Karpathy «Pong from Pixels».
Regardez les conférences Deep RL Bootcamp .
Pour comprendre les mathématiques derrière ces techniques, reportez-vous à Sutton and Barto's Reinforcement Learning: An Introduction .
Lisez les articles pertinents (jeu, etc.).
PS: Assurez-vous de bien maîtriser les bases des réseaux de neurones, car la plupart des articles actuels de RL impliquent d'utiliser les DNN d'une manière ou d'une autre comme approximateurs.
J'ai récemment vu un cours de Microsoft sur edx. C'est ce qu'on appelle «l'apprentissage par renforcement expliqué».
Voici le lien: https://www.edx.org/course/reinforcement-learning-explained-0 Ce n'est pas très complet mais donne au moins un bon point de départ.
Je dirais que ce post est à lire absolument:
https://rubenfiszel.github.io/posts/rl4j/2016-08-24-Reinforcement-Learning-and-DQN.html
real-world applicability of reinforcement learning is almost non-existent
AlphaGo a été formé à l'apprentissage par renforcement.