Voici quelques bons manuels / références:
Classique
Sutton RS, Barto AG. Apprentissage par renforcement: une introduction. Cambridge, Mass: A Bradford Book; 1998. 322 p.
Le brouillon de la deuxième édition est disponible gratuitement: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
Chapitre 21 de Russell / Norvig:
Russell SJ, Norvig P, Davis E. Intelligence artificielle: une approche moderne. Upper Saddle River, NJ: Prentice Hall; 2010.
Plus technique
Szepesvári C. Algorithmes pour l'apprentissage par renforcement. Conférences de synthèse sur l'intelligence artificielle et l'apprentissage automatique. 2010; 4 (1): 1–103. http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP. Programmation dynamique et contrôle optimal. 4ème édition. Belmont, Mass.: Athena Scientific; 2007. 1270 p.
Le chapitre 6, vol 2 est disponible gratuitement: http://web.mit.edu/dimitrib/www/dpchapter.pdf
Pour des développements plus récents
Wiering M, van Otterlo M, éditeurs. Apprentissage par renforcement. Berlin, Heidelberg: Springer Berlin Heidelberg; 2012 Disponible sur: http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynolds HJD, Thornton JR, et al. Prise de décision en cas d'incertitude: théorie et application. 1 édition. Cambridge, Massachusetts: The MIT Press; 2015. 352 p.
Apprentissage par renforcement multi-agents
Buşoniu L, Babuška R, BD Schutter. Apprentissage par renforcement multi-agents: un aperçu. Dans: Srinivasan D, Jain LC, éditeurs. Innovations dans les systèmes et applications multi-agents - 1. Springer Berlin Heidelberg; 2010 p. 183-221. Disponible sur: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
Schwartz HM. Apprentissage automatique multi-agents: une approche de renforcement. Hoboken, New Jersey: Wiley; 2014.
Vidéos / Cours
Je suggérerais également un cours de David Silver sur YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa