Il me semble que la fonction peut être facilement exprimée par la fonction et donc la fonction me semble superflue. Cependant, je suis nouveau dans l'apprentissage par renforcement, donc je suppose que je me suis trompé.
Définitions
L'apprentissage Q et V s'inscrit dans le contexte des processus de décision de Markov . Un MDP est un 5-tuple avec
- est un ensemble d'états (généralement finis)
- est un ensemble d'actions (généralement finies)
- est la probabilité de passer de l'état à l'état avec l'action .
- est la récompense immédiate après être passé de l'état à l'état avec l'action . (Il me semble que généralement questions).
- est appelé facteur d'actualisation et détermine si l'on se concentre sur les récompenses immédiates ( ), la récompense totale ( ) ou certains compromis.
Une politique , selon Reinforcement Learning: An Introduction de Sutton et Barto, est une fonction (cela pourrait être probabiliste).
D'après les diapositives de Mario Martins , la fonction est
Mes pensées
La fonction indique quelle est la valeur globale attendue (pas la récompense!) D'un état sous la politique .
La fonction indique quelle est la valeur d'un état s et d'une action a sous la politique π .
Cela signifie que
Droite? Alors, pourquoi avons-nous la fonction de valeur? (Je suppose que j'ai mélangé quelque chose)