SARSA et Q Learning sont tous deux des algorithmes d'apprentissage par renforcement qui fonctionnent de manière similaire. La différence la plus frappante est que SARSA est en politique alors que Q Learning est hors politique. Les règles de mise à jour sont les suivantes:
Apprentissage Q:
SARSA:
où et sont l' état, l' action et la récompense à l' étape de temps et est un facteur d'actualisation.
Ils se ressemblent principalement, sauf que dans SARSA, nous prenons des mesures réelles et dans Q Learning, nous prenons les mesures avec la plus haute récompense.
Existe-t-il des cadres théoriques ou pratiques dans lesquels l'un devrait préférer l'un à l'autre? Je peux voir que prendre le maximum dans Q Learning peut être coûteux et encore plus dans des espaces d'action continue. Mais y a-t-il autre chose?