Qu'est-ce que l'efficacité de l'échantillon et comment peut-on utiliser un échantillonnage d'importance pour y parvenir?


Réponses:


14

100

Dans le cas de l'apprentissage hors politique, tous les échantillons ne sont pas utiles dans la mesure où ils ne font pas partie de la distribution qui nous intéresse. Échantillonnage d'importanceest une technique pour filtrer ces échantillons. Son utilisation initiale était de comprendre une distribution tout en ne pouvant prélever que des échantillons d'une distribution différente mais liée. Dans RL, cela se produit souvent lorsque vous essayez d'apprendre hors politique. A savoir que vos échantillons sont produits par une politique de comportement mais que vous souhaitez apprendre une politique cible. Il faut donc mesurer l'importance / la similitude des échantillons générés avec les échantillons que la politique cible a pu créer. Ainsi, on échantillonne à partir d'une distribution pondérée qui favorise ces échantillons "importants". Il existe cependant de nombreuses méthodes pour caractériser ce qui est important, et leur efficacité peut différer selon l'application.

L'approche la plus courante de ce style d'importance hors politique consiste à trouver un rapport sur la probabilité qu'un échantillon soit généré par la politique cible. L'article Sur une connexion entre l'échantillonnage d'importance et le gradient de politique du rapport de vraisemblance (2010) par Tang et Abbeel couvre ce sujet.


2
Merci encore. Question de base: ..finding a ratio of how likely a sample is to be generated by the target policycomment décider de cela, étant donné que nous ne connaissons que la politique de comportement? La politique cible n'est-elle pas quelque chose que nous devons trouver?
Gokul NC

1
Nous pouvons facilement obtenir une estimation de cela en trouvant le rapport de la politique cible, pi, en prenant cette action par rapport à la politique de comportement, mu. Ainsi, le rapport est P = pi (s, a) / mu (s, a) où a et s sont l'action choisie par mu et l'état, respectivement.
Jaden Travnik

1
Ma question était, d'où obtenons-nous pi (s, a), alors que nous n'avons que mu (s, a)? Autrement dit, d'où tirons-nous la politique cible, alors que notre objectif est de la trouver?
Gokul NC

1
Votre stratégie cible est initialisée de manière aléatoire, il s'agit simplement de la mettre à jour.
Jaden Travnik

5

L'échantillon d'efficacité indique la quantité d'expérience qu'un agent / algorithme doit générer dans un environnement (par exemple, le nombre d'actions qu'il prend et le nombre d'états résultants + les récompenses qu'il observe) pendant la formation afin d'atteindre un certain niveau de performance. Intuitivement, vous pourriez dire qu'un algorithme est efficace en termes d'échantillons s'il peut faire bon usage de chaque expérience qu'il génère et améliore rapidement sa politique. Un algorithme a une faible efficacité d'échantillonnage s'il ne parvient pas à apprendre quoi que ce soit d'utile à partir de nombreux échantillons d'expérience et ne s'améliore pas rapidement.

L'explication de l'échantillonnage d'importance dans la réponse de Jaden semble pour la plupart correcte.

Dans l'article de votre question, l'échantillonnage d'importance est l'un des ingrédients qui permet une combinaison correcte de 1) l'apprentissage à partir de trajectoires en plusieurs étapes et 2) des tampons de relecture d'expérience. Ces deux choses n'étaient pas faciles à combiner auparavant (car les retours en plusieurs étapes sans échantillonnage d'importance ne sont corrects que dans l'apprentissage sur stratégie, et les anciens échantillons dans un tampon de relecture ont été générés par une ancienne stratégie, ce qui signifie que leur apprentissage est hors stratégie. ). Cependant, ces deux éléments améliorent individuellement l'efficacité de l'échantillon, ce qui implique qu'il est également bénéfique pour l'efficacité de l'échantillon s'ils peuvent toujours être combinés d'une manière ou d'une autre.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.