Quelle est la relation entre le Q-learning et les méthodes de gradients politiques?


21

Pour autant que je sache, le Q-learning et les gradients de politique (PG) sont les deux principales approches utilisées pour résoudre les problèmes de RL. Alors que le Q-learning vise à prédire la récompense d'une certaine action entreprise dans un certain état, les gradients politiques prédisent directement l'action elle-même.

Cependant, les deux approches me semblent identiques, c'est-à-dire que prédire la récompense maximale pour une action (Q-learning) équivaut à prédire la probabilité de prendre l'action directement (PG). Est-ce la différence dans la façon dont la perte est propagée à l'envers?

Réponses:


20

Cependant, les deux approches me semblent identiques, c'est-à-dire que prédire la récompense maximale pour une action (Q-learning) équivaut à prédire la probabilité de prendre l'action directement (PG).

Les deux méthodes sont théoriquement guidées par la construction du processus de décision de Markov et, par conséquent, utilisent une notation et des concepts similaires. En outre, dans des environnements simples résolubles, vous devez vous attendre à ce que les deux méthodes aboutissent à des politiques optimales identiques - ou au moins équivalentes.

Cependant, ils sont en réalité différents en interne. Les différences les plus fondamentales entre les approches résident dans la manière dont elles abordent la sélection des actions, à la fois pendant l'apprentissage et en tant que résultat (la politique apprise). En Q-learning, le but est d'apprendre une seule action déterministe à partir d'un ensemble discret d'actions en trouvant la valeur maximale. Avec des gradients de politique et d'autres recherches directes de politique, l'objectif est d'apprendre une carte de l'état à l'action, qui peut être stochastique, et fonctionne dans des espaces d'action continus.

Par conséquent, les méthodes de gradient de politique peuvent résoudre des problèmes que les méthodes basées sur des valeurs ne peuvent pas:

  • Grand espace d'action continu. Cependant, avec des méthodes basées sur des valeurs, cela peut toujours être approximé avec la discrétisation - et ce n'est pas un mauvais choix, car la fonction de mappage dans le gradient de politique doit être une sorte d'approximateur dans la pratique.

  • Politiques stochastiques. Une méthode basée sur des valeurs ne peut pas résoudre un environnement où la politique optimale est stochastique nécessitant des probabilités spécifiques, telles que Ciseaux / Papier / Pierre. C'est parce qu'il n'y a pas de paramètres entraînables dans l'apprentissage Q qui contrôlent les probabilités d'action, la formulation du problème dans l'apprentissage TD suppose qu'un agent déterministe peut être optimal.

Cependant, les méthodes basées sur les valeurs comme le Q-learning présentent également certains avantages:

  • Simplicité. Vous pouvez implémenter des fonctions Q comme de simples tables discrètes, ce qui donne quelques garanties de convergence. Il n'y a pas de versions tabulaires du gradient de politique, car vous avez besoin d'une fonction de mappage qui doit également avoir un gradient lisse par rapport à .p(unes,θ)θ

  • La vitesse. Les méthodes d'apprentissage TD qui démarrent sont souvent beaucoup plus rapides pour apprendre une politique que les méthodes qui doivent être purement échantillonnées dans l'environnement afin d'évaluer les progrès.

Il existe d'autres raisons pour lesquelles vous pourriez souhaiter utiliser l'une ou l'autre approche:

  • Vous souhaiterez peut-être connaître le retour prévu pendant l'exécution du processus, afin d'aider d'autres processus de planification associés à l'agent.

  • La représentation d'état du problème se prête plus facilement à une fonction de valeur ou à une fonction de politique. Une fonction de valeur peut s'avérer avoir une relation très simple avec l'État et la fonction de politique très complexe et difficile à apprendre, ou vice-versa .

Certains solveurs RL à la pointe de la technologie utilisent en fait les deux approches ensemble, comme Actor-Critic. Cela combine les forces de la valeur et les méthodes de gradient politique.


Que voulez-vous dire quand vous dites que l'acteur-critique combine la force des deux méthodes? À ma connaissance, l'acteur évalue la meilleure action à entreprendre en fonction de l'état, et le critique évalue la valeur de cet état, puis nourrit l'acteur. Les traiter comme une seule unité "Policy" ressemble toujours à un gradient de politique pour moi. Pourquoi est-ce vraiment comme Q-learning?
Gulzar

1
@Guizar: Le critique apprend en utilisant une méthode basée sur les valeurs (par exemple Q-learning). Ainsi, dans l'ensemble, l'acteur-critique est une combinaison d'une méthode de valeur et d'une méthode de gradient politique, et il profite de la combinaison. Une amélioration notable par rapport au PG "vanille" est que les gradients peuvent être évalués à chaque étape, plutôt qu'à la fin de chaque épisode. Si vous cherchez une réponse plus détaillée à ce sujet, vous devriez poser une question sur le site.
Neil Slater

@Guizar: En fait, grattez le (par exemple Q-learning) car je suis confus entre l'acteur-critique d'avantage (qui ajuste la ligne de base pour qu'il soit basé sur les valeurs d'action) et le critique qui est généralement une valeur d'état plus simple. Cependant, le reste de ma description est toujours le même, le critique est généralement mis à jour à l'aide de méthodes TD basées sur des valeurs, dont l'apprentissage Q est également un exemple.
Neil Slater
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.