Quand choisir SARSA vs Q Learning

SARSA et Q Learning sont tous deux des algorithmes d'apprentissage par renforcement qui fonctionnent de manière similaire. La différence la plus frappante est que SARSA est en politique alors que Q Learning est hors politique. Les règles de mise à jour sont les suivantes:

Apprentissage Q:

Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α [r_{t + 1} + γ max_{a^{'}} Q (s_{t + 1}, a^{'}) - Q (s_{t}, a_{t})]

$Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)]$

SARSA:

Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α [r_{t + 1} + γ Q (s_{t + 1}, a_{t + 1}) - Q (s_{t}, a_{t})]

$Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)]$

où $s_t,\,a_t$ et $r_t$ sont l' état, l' action et la récompense à l' étape de temps $t$ et $\gamma$ est un facteur d'actualisation.

Ils se ressemblent principalement, sauf que dans SARSA, nous prenons des mesures réelles et dans Q Learning, nous prenons les mesures avec la plus haute récompense.

Existe-t-il des cadres théoriques ou pratiques dans lesquels l'un devrait préférer l'un à l'autre? Je peux voir que prendre le maximum dans Q Learning peut être coûteux et encore plus dans des espaces d'action continue. Mais y a-t-il autre chose?

reinforcement-learning

— hh32
source

Dans les espaces d'action continus, les méthodes de recherche de stratégie directe telles que diverses méthodes de gradient de stratégie sont couramment utilisées car, comme vous l'avez compris, la maintenance et l'évaluation d'une fonction de valeur discrète pour un espace d'action continue sont peu pratiques, en particulier lorsque l'espace d'action a plusieurs dimensions. (à cause de la malédiction de la dimensionnalité ).

— HelloGoodbye

Ils se ressemblent principalement, sauf que dans SARSA, nous prenons des mesures réelles et dans Q Learning, nous prenons les mesures avec la plus haute récompense.

En fait, dans les deux cas, vous "effectuez" l'action réelle générée unique ensuite. Dans Q learning, vous mettez à jour l'estimation à partir de l'estimation maximale des prochaines actions possibles, quelle que soit l'action que vous avez entreprise. Pendant que vous êtes dans SARSA, vous mettez à jour les estimations basées sur et prenez la même action. $a_{t+1}$

C'est probablement ce que vous vouliez dire par "prendre" dans la question, mais dans la littérature, prendre une action signifie qu'elle devient par exemple la valeur de , et influence , . $a_{t}$ $r_{t+1}$ $s_{t+1}$

Existe-t-il des cadres théoriques ou pratiques dans lesquels l'un devrait préférer l'un à l'autre?

Le Q-learning présente les avantages et les inconvénients suivants par rapport à SARSA:

Q-learning apprend directement la politique optimale, tandis que SARSA apprend une politique presque optimale tout en explorant. Si vous voulez apprendre une politique optimale en utilisant SARSA, alors vous devrez décider d'une stratégie pour désintégrer dans -greedy action choice, qui peut devenir un hyperparamètre à régler. $\epsilon$ $\epsilon$
L'apprentissage Q (et l'apprentissage hors politique en général) présente une variance par échantillon plus élevée que SARSA, et peut en conséquence souffrir de problèmes de convergence. Cela se révèle être un problème lors de la formation de réseaux de neurones via Q-learning.
SARSA se rapprochera de la convergence en prévoyant d'éventuelles pénalités de mouvements exploratoires, tandis que l'apprentissage Q les ignorera. Cela rend SARSA plus conservateur - s'il existe un risque de grande récompense négative près du chemin optimal, l'apprentissage Q aura tendance à déclencher cette récompense pendant l'exploration, tandis que SARSA aura tendance à éviter un chemin optimal dangereux et à n'apprendre que lentement à l'utiliser. lorsque les paramètres d'exploration sont réduits. Le problème classique des jouets qui démontre cet effet est appelé la marche en falaise .

Dans la pratique, le dernier point peut faire une grande différence si les erreurs coûtent cher - par exemple, vous entraînez un robot non pas en simulation, mais dans le monde réel. Vous pouvez préférer un algorithme d'apprentissage plus conservateur qui évite les risques élevés, s'il y avait du temps réel et de l'argent en jeu si le robot était endommagé.

Si votre objectif est de former un agent optimal en simulation, ou dans un environnement à faible coût et à itération rapide, alors le Q-learning est un bon choix, en raison du premier point (apprendre directement la politique optimale). Si votre agent apprend en ligne et que vous vous souciez des récompenses obtenues tout en apprenant , alors SARSA peut être un meilleur choix.

— Neil Slater
source

Question de suivi: stats.stackexchange.com/questions/361485/…

— Muppet