Dans l'apprentissage par renforcement, nous avons une fonction de récompense qui informe l'agent de la qualité de ses actions et états actuels. Dans un cadre général, la fonction de récompense est fonction de trois variables:
- État actuel
- Action en cours à l'état actuel
- Prochain état
Cela ressemble donc à quelque chose comme:
Quelle est ma question (qui est probablement mon malentendu), normalement la personne qui utilise l'apprentissage par renforcement décide quelle est la récompense. Par exemple, il attribue 1000 points pour atteindre l'objectif ou 1 000 points pour planter le robot autonome. Dans ces scénarios, il n'est pas clair pour moi pourquoi nous aurions besoin d'échantillons pour apprendre que R. R est a priori spécifié, puis nous utilisons notre agent. Droite? Cependant, je sais que je me trompe parce que dans les notes d'Andrew Ng, il dit:
Où il dit que nous ne connaissons pas explicitement la fonction de récompense. Cela me semble bizarre. Je sais que je me trompe et j'aimerais que quelqu'un me clarifie dans quels scénarios devons-nous réellement apprendre le R à partir d'échantillons?
(évidemment, les probabilités de transition doivent être apprises car on ne sait pas comment l'environnement va a priori faire bouger notre agent).