Quelle est la différence entre l'apprentissage hors politique et l'apprentissage en ligne?

79

Le site Web sur l' intelligence artificielle définit l'apprentissage hors politique et en ligne comme suit:

"Un apprenant hors politique apprend la valeur de la politique optimale indépendamment des actions de l'agent. Q-learning est un apprenant hors politique. Un apprenant en politique découvre la valeur de la politique mise en œuvre par l'agent, y compris les étapes d'exploration. . "

J'aimerais vous demander des éclaircissements à ce sujet, car ils ne semblent pas faire de différence pour moi. Les deux définitions semblent identiques. Ce que j’ai bien compris, c’est l’apprentissage sans modèle et basé sur un modèle, et je ne sais pas s’ils ont quelque chose à voir avec ceux en question.

Comment est-il possible que la stratégie optimale soit apprise indépendamment des actions de l'agent? La stratégie n'est-elle pas apprise lorsque l'agent exécute les actions?

machine-learning reinforcement-learning artificial-intelligence

— cgo
source

1

J'ai ajouté un commentaire à stackoverflow.com/questions/6848828/… , la partie TL; NR pourrait également être utile à la compréhension.

— Zyxue

Voici une bonne explication nb4799.neu.edu/wordpress/?p=1850

— Ivan Kush

Je voudrais également ajouter qu’il existe une variante de la SARSA non conforme à la politique. Ce document ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) passera en revue la politique sur l'introduction et la désactivation, puis explique le sarsa attendu. Recherchez également des gradients de politique attendus (EPG) pour trouver une théorie plus générale qui relie les deux types.

— Josh Albert

95

Tout d’abord, il n’ya aucune raison qu’un agent doive faire l’ action gloutonne ; Les agents peuvent explorer ou suivre des options . Ce n'est pas ce qui distingue l'apprentissage en politique de l'apprentissage non politique.

La raison pour laquelle Q-learning n’est pas conforme à la politique est qu’elle met à jour ses valeurs Q à l’aide de la valeur Q de l’état suivant et de l’ action gloutonne . En d'autres termes, il estime que le rendement (total de la récompense future actualisée) pour les paires action-état dans l'hypothèse d'une politique gloutonne a été suivi alors que cela ne suit pas une politique gloutonne. $s'$ $a'$

La raison pour laquelle SARSA est conforme à la politique est qu'elle met à jour ses valeurs Q à l'aide de la valeur Q de l'état suivant et de l' action de la stratégie actuelle . Il estime le rendement des paires état-action en supposant que la politique actuelle continue d'être suivie. $s'$ $a''$

La distinction disparaît si la politique actuelle est une politique gourmande. Cependant, un tel agent ne serait pas bon car il n’explore jamais.

Avez-vous consulté le livre disponible gratuitement en ligne? Richard S. Sutton et Andrew G. Barto. Apprentissage par renforcement: une introduction. Deuxième édition, MIT Press, Cambridge, MA, 2018.

— Neil G
source

8

belle explication! Votre exemple sur Q-learning est mieux formulé que dans le livre de Sutton, qui dit: " la fonction de valeur d’action apprise, Q, se rapproche directement de Q *, la fonction de valeur d’action optimale, indépendamment de la politique suivie. Cela simplifie considérablement la l'analyse de l'algorithme et la validation précoce des preuves de convergence. La politique a toujours un effet en ce qu'elle détermine quelles paires état-action sont visitées et mises à jour. "

— Ciprian Tomoiagă

3

En général, je ne trouve pas Sutton et Barto très lisibles. Je trouve que les explications qu’ils offrent ne sont pas très compréhensibles. Je ne suis pas sûr de savoir pourquoi leur livre est recommandé partout

— SN

@SN Pour de nombreux étudiants en apprentissage par renforcement, Sutton et Barto sont le premier livre qu'ils ont lu.

— Neil G

3

@JakubArnold, le livre original de Sutton & Barto date de 1998 et ne couvre pas l'apprentissage par renforcement en profondeur. La deuxième édition ne mentionne que des choses comme AlphaGo, mais le livre est axé sur des approches plus classiques. Si vous voulez plus de ressources RL, consultez cette liste . Je suggère les vidéos de David Silver et le livre de Puterman, car ils sont plus accessibles. Pour des documents plus théoriques, je recommande les livres de Bertsekas. Consultez le site Web Spinning Up pour des algorithmes DRL et des liens vers des articles originaux.

— Douglas De Rizzo Meneghetti Le

1

@AlbertChen "Donc, dans ce cas, cela dépend de l'exploration ou non": Non, car les deux algorithmes explorent. La différence réside dans la mise à jour de Q.

— Neil G

13

Les méthodes sur stratégie évaluent la valeur d'une stratégie tout en l'utilisant pour le contrôle.

Dans les méthodes hors stratégie , la stratégie utilisée pour générer le comportement, appelée stratégie de comportement , peut ne pas être liée à la stratégie évaluée et améliorée, appelée stratégie d' estimation .

Un avantage de cette séparation est que la politique d'estimation peut être déterministe (par exemple gourmande), tandis que la politique de comportement peut continuer à échantillonner toutes les actions possibles.

Pour plus de détails, voir les sections 5.4 et 5.6 de l’ouvrage L’ apprentissage par renforcement: une introduction de Barto et Sutton, première édition.

— nbro
source

7

La différence entre les méthodes hors stratégie et les stratégies actives est qu'avec la première méthode, vous n'avez pas besoin de suivre une stratégie spécifique. Votre agent peut même se comporter de manière aléatoire. Malgré cela, les méthodes hors stratégie peuvent toujours trouver la stratégie optimale. D'autre part, les méthodes en ligne dépendent de la politique utilisée. Dans le cas de Q-Learning, qui est hors stratégie, il trouvera la stratégie optimale indépendamment de la stratégie utilisée lors de l'exploration. Toutefois, cela n'est vrai que lorsque vous visitez suffisamment d'états différents. Vous pouvez trouver dans le document original de Watkins la preuve qui montre cette très belle propriété de Q-Learning. Il y a cependant un compromis à faire et c'est que les méthodes non politiques ont tendance à être plus lentes que les méthodes non politiques. Voici un lien avec d'autres résumé intéressant des propriétés des deux types de méthodes

— Juli
source

1

Les méthodes hors stratégie sont non seulement plus lentes, mais peuvent être instables lorsqu'elles sont combinées à l'amorçage (c'est-à-dire à la façon dont Q-learning construit des estimations les unes des autres) et à des approximateurs de fonctions (réseaux de neurones, par exemple).

— Neil Slater

7

Tout d’abord, que signifie réellement politique (noté )? Policy spécifie une action , effectuée dans un état (ou plus précisément, est une probabilité, qu'une action soit entreprise dans un état ). $\pi$
$a$ $s$ $\pi$ $a$ $s$

Deuxièmement, quels types d’apprentissage avons-nous?
1. Evaluer la fonction : prédire la somme des récompenses actualisées futures, où est une action et est un état. 2. Trouvez (en fait, ), qui donne une récompense maximale. $Q(s,a)$ $a$ $s$
$\pi$ $\pi(a|s)$

Retour à la question initiale. L'apprentissage en politique et hors politique n'est lié qu'à la première tâche: évaluer . $Q(s,a)$

La différence est la suivante:
Dans sur la politique d' apprentissage du fonction appris des actions, nous avons utilisé notre politique actuelle . Dans l' apprentissage non politique, la fonction est apprise à partir de différentes actions (par exemple, des actions aléatoires). Nous n'avons même pas besoin d'une politique du tout! $Q(s,a)$ $\pi$
$Q(s,a)$

Voici la fonction de mise à jour de l' algorithme SARSA en politique : , où est l'action qui a été prise conformément à la politique . $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$ $a'$ $\pi$

Comparez-le avec la fonction de mise à jour de l' algorithme Q-learning hors stratégie : , où sont toutes les actions qui ont été sondées dans l'état . $Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a))$ $a'$ $s'$

— Dmitry Mottl
source

1

Extrait du livre de Sutton: "L’approche politique de la section précédente est en réalité un compromis: elle apprend des valeurs d’action non pas pour une politique optimale, mais pour une politique presque optimale qui reste explorée. Une approche plus simple consiste à utiliser deux politiques Une stratégie qui est apprise et qui devient la politique optimale, et qui est plus exploratoire et est utilisée pour générer un comportement.La politique en cours d’apprentissage est appelée politique cible et la politique utilisée pour générer un comportement est appelée politique de comportement. Dans ce cas, nous disons que l'apprentissage provient des données «de la politique cible» et que l'ensemble du processus est appelé «apprentissage par la politique». "

— Oliver Goldstein
source

si vous suivez cette description, il est difficile de dire pourquoi Q-learning n’est pas une politique

— Albert Chen