La plupart des introductions dans le domaine des MDP et de l'apprentissage par renforcement se concentrent exclusivement sur des domaines où l'espace et les variables d'action sont des entiers (et finis). De cette façon, nous sommes rapidement initiés à l'itération de la valeur, au Q-Learning, etc.
Cependant, les applications les plus intéressantes (disons, les hélicoptères volants ) des RL et des MDP impliquent un espace d'état continu et des espaces d'action. J'aimerais aller au-delà des introductions de base et me concentrer sur ces cas, mais je ne sais pas comment y arriver.
Quels domaines dois-je connaître ou étudier pour comprendre ces cas en profondeur?