Intelligence artificielle trpo

Questions marquées «trpo»

Comment appliquer des gradients de politique dans le cas de plusieurs actions continues?

Trusted Region Policy Optimization (TRPO) et Proximal Policy Optimization (PPO) sont deux algorithmes de gradients de politique de pointe. Lorsque vous utilisez une seule action continue, normalement, vous utiliseriez une distribution de probabilité (par exemple, gaussienne) pour la fonction de perte. La version approximative est: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, où …

11 deep-learning reinforcement-learning trpo