Pourquoi la lettre Q a été choisie au nom de Q-learning?
La plupart des lettres sont choisies comme abréviation, comme pour politique et v pour valeur. Mais je ne pense pas que Q soit l'abréviation d'un mot.
Pourquoi la lettre Q a été choisie au nom de Q-learning?
La plupart des lettres sont choisies comme abréviation, comme pour politique et v pour valeur. Mais je ne pense pas que Q soit l'abréviation d'un mot.
Réponses:
Je suis désolé de décevoir tout le monde, mais Q ne représente rien :)
Le Q-learning a été proposé par Watkins dans sa thèse de doctorat en 1989, voir p.96. Le Q dans l'équation sur cette page est mis à jour d'une certaine manière à chaque étape. Le Q est le retour attendu de l'action à un état donné, voir la définition de Q p.46. Le rendement est au sens économique ou de la théorie des jeux, c'est-à-dire des récompenses pondérées en fonction de la probabilité actualisée, et non d'un terme informatique comme un rendement d'une fonction.
Remarquez comment il a déjà utilisé P pour la probabilité et R pour la récompense, alors il a saisi Q pour le retour. C'est ça. Il n'y a pas de sens plus profond pour le choix d'une lettre Q.