2
Quand les méthodes de Monte-Carlo sont-elles préférées aux différences temporelles?
J'ai fait beaucoup de recherches récemment sur l'apprentissage par renforcement. J'ai suivi l' apprentissage par renforcement de Sutton & Barto : une introduction pour la plupart de cela. Je sais ce que sont les processus de décision de Markov et comment l'apprentissage par programmation dynamique (DP), Monte Carlo et différence …