Différence entre la programmation dynamique et l'apprentissage par différence temporelle dans l'apprentissage par renforcement

Dans l'apprentissage par renforcement, quelle est la différence entre la programmation dynamique et l'apprentissage par différence temporelle?

reinforcement-learning

— tdc
source

DP résout la politique optimale ou la fonction de valeur par récursivité. Elle nécessite la connaissance du processus décisionnel markovien (MDP) ou d'un modèle du monde pour que les récursions puissent être effectuées. Il est généralement regroupé sous «planification» plutôt que «apprentissage», en ce sens que vous connaissez déjà le MDP et que vous avez juste besoin de savoir quoi faire (de manière optimale).

La TD est sans modèle: elle ne nécessite pas la connaissance d'un modèle du monde. Il est itératif, basé sur la simulation et apprend par bootstrap, c'est-à-dire que la valeur d'un état ou d'une action est estimée en utilisant les valeurs d'autres états ou actions.

Pour plus d'informations, voir:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html