Trusted Region Policy Optimization (TRPO) et Proximal Policy Optimization (PPO) sont deux algorithmes de gradients de politique de pointe.
Lorsque vous utilisez une seule action continue, normalement, vous utiliseriez une distribution de probabilité (par exemple, gaussienne) pour la fonction de perte. La version approximative est:
où est l'avantage des récompenses, est caractérisé par et qui sort du réseau neuronal comme dans l'environnement Pendulum ici: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/h /main.py .
Le problème est que je ne trouve aucun article sur 2+ actions continues utilisant des gradients de politique (pas des méthodes d'acteur-critique qui utilisent une approche différente en transférant le gradient de la fonction Q).
Savez-vous comment faire cela en utilisant TRPO pour 2 actions continues dans l' environnement LunarLander ?
L'approche suivante est-elle correcte pour la fonction de perte de gradient de politique?