Pensons aux situations suivantes:
- Vous apprenez à un robot à jouer au ping-pong
- Vous enseignez un programme pour calculer la racine carrée
- Vous enseignez les mathématiques à un enfant à l'école
Ces situations (c'est-à-dire l'apprentissage supervisé) et bien d'autres ont une chose (parmi d'autres) en commun: l'apprenant obtient une récompense en fonction de ses performances.
Ma question est, à quoi devrait ressembler la fonction de récompense? Y a-t-il une «meilleure» réponse ou cela dépend-il de la situation? Si cela dépend de la situation, comment déterminer la fonction de récompense à choisir?
Par exemple, prenez les trois fonctions de récompense suivantes:
- La fonction
A
dit:- en dessous d'un certain point, mauvais ou pire sont les mêmes: vous n'obtenez rien
- il y a une nette différence entre presque bon et parfait
- La fonction
B
dit:- vous obtenez une récompense linéairement proportionnelle à vos performances
- La fonction
C
dit:- si vos performances sont mauvaises, c'est ok, vous avez fait de votre mieux: vous obtenez toujours une récompense
- il n'y a pas beaucoup de différence entre parfait et presque bon
Intuitivement, je pense que A
cela rendrait le robot très concentré et apprendrait le modèle exact, mais deviendrait stupide lorsqu'il s'agit de modèles similaires, tout en C
le rendant plus adaptable pour changer au prix de perdre la perfection.
On pourrait aussi penser à des fonctions plus complexes, pour n'en montrer que peu:
Alors, comment sait-on quelle fonction choisir? Est - il connu que le comportement émergerait (au moins) de base A
, B
et les C
fonctions?
Une question secondaire est-ce que cela serait fondamentalement différent pour les robots et les enfants humains?
A
, le robot pourrait devenir extrêmement bon pour la tâche exacte, mais terrible pour des tâches similaires mais légèrement différentes. C'est juste ma supposition cependant.
X
m'a donné le meilleur résultat", même si ce n'est pas parfaitement correct, donnerait une bonne règle de base.