Apprendre à comprendre les états continus / espaces d'action MDP et apprentissage par renforcement

La plupart des introductions dans le domaine des MDP et de l'apprentissage par renforcement se concentrent exclusivement sur des domaines où l'espace et les variables d'action sont des entiers (et finis). De cette façon, nous sommes rapidement initiés à l'itération de la valeur, au Q-Learning, etc.

Cependant, les applications les plus intéressantes (disons, les hélicoptères volants ) des RL et des MDP impliquent un espace d'état continu et des espaces d'action. J'aimerais aller au-delà des introductions de base et me concentrer sur ces cas, mais je ne sais pas comment y arriver.

Quels domaines dois-je connaître ou étudier pour comprendre ces cas en profondeur?

research reinforcement-learning control-problem

— CarrKnight
source

Il y a un petit aperçu des états continus, des actions et du temps dans l'apprentissage par renforcement dans ma proposition de thèse .

En ce qui concerne les livres, Reinforcement Learning: State-of-the-Art semble être assez à jour par rapport aux extraits que j'ai lus.

— rcpinto
source