Différence entre la programmation dynamique et l'apprentissage par différence temporelle dans l'apprentissage par renforcement


8

Dans l'apprentissage par renforcement, quelle est la différence entre la programmation dynamique et l'apprentissage par différence temporelle?

Réponses:


9

DP résout la politique optimale ou la fonction de valeur par récursivité. Elle nécessite la connaissance du processus décisionnel markovien (MDP) ou d'un modèle du monde pour que les récursions puissent être effectuées. Il est généralement regroupé sous «planification» plutôt que «apprentissage», en ce sens que vous connaissez déjà le MDP et que vous avez juste besoin de savoir quoi faire (de manière optimale).

La TD est sans modèle: elle ne nécessite pas la connaissance d'un modèle du monde. Il est itératif, basé sur la simulation et apprend par bootstrap, c'est-à-dire que la valeur d'un état ou d'une action est estimée en utilisant les valeurs d'autres états ou actions.

Pour plus d'informations, voir:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.