Pensons aux situations suivantes:
- Vous apprenez à un robot à jouer au ping-pong
- Vous enseignez un programme pour calculer la racine carrée
- Vous enseignez les mathématiques à un enfant à l'école
Ces situations (c'est-à-dire l'apprentissage supervisé) et bien d'autres ont une chose (parmi d'autres) en commun: l'apprenant obtient une récompense en fonction de ses performances.
Ma question est, à quoi devrait ressembler la fonction de récompense? Y a-t-il une «meilleure» réponse ou cela dépend-il de la situation? Si cela dépend de la situation, comment déterminer la fonction de récompense à choisir?
Par exemple, prenez les trois fonctions de récompense suivantes:

- La fonction
Adit:- en dessous d'un certain point, mauvais ou pire sont les mêmes: vous n'obtenez rien
- il y a une nette différence entre presque bon et parfait
- La fonction
Bdit:- vous obtenez une récompense linéairement proportionnelle à vos performances
- La fonction
Cdit:- si vos performances sont mauvaises, c'est ok, vous avez fait de votre mieux: vous obtenez toujours une récompense
- il n'y a pas beaucoup de différence entre parfait et presque bon
Intuitivement, je pense que Acela rendrait le robot très concentré et apprendrait le modèle exact, mais deviendrait stupide lorsqu'il s'agit de modèles similaires, tout en Cle rendant plus adaptable pour changer au prix de perdre la perfection.
On pourrait aussi penser à des fonctions plus complexes, pour n'en montrer que peu:

Alors, comment sait-on quelle fonction choisir? Est - il connu que le comportement émergerait (au moins) de base A, Bet les Cfonctions?
Une question secondaire est-ce que cela serait fondamentalement différent pour les robots et les enfants humains?
A, le robot pourrait devenir extrêmement bon pour la tâche exacte, mais terrible pour des tâches similaires mais légèrement différentes. C'est juste ma supposition cependant.
Xm'a donné le meilleur résultat", même si ce n'est pas parfaitement correct, donnerait une bonne règle de base.
