Je ne peux pas comprendre l'objectif des poids d'échantillonnage d'importance (IS) dans la lecture prioritaire (page 5) .
Une transition est plus susceptible d'être échantillonnée à partir de l'expérience rejouée plus son «coût» est élevé. Ma compréhension est que «IS» aide à abandonner en douceur l'utilisation de la relecture prioritaire après que nous nous soyons entraînés assez longtemps. Mais qu'utilisons-nous à la place, un échantillonnage uniforme?
Je suppose que je ne peux pas réaliser comment chaque composante d'un tel coefficient affecte le résultat. Quelqu'un pourrait-il l'expliquer avec des mots?
Il est ensuite utilisé pour atténuer le gradient, que nous essayons d'obtenir à partir des transitions.
Où:
- est "EST"
- N est la taille du tampon Experience Replay
- P (i) est la chance de sélectionner la transition , en fonction de "la masse grasse de son coût".
- commence à partir de 0 et se déplace de plus en plus près de 1 à chaque nouvelle époque.
Ma compréhension de ces paramètres est-elle également correcte?
Modifier Quelque temps après l'acceptation de la réponse, j'ai trouvé une source supplémentaire, une vidéo qui pourrait être utile pour les débutants - MC Simmulations: 3.5 Importance Sampling
Modifier Comme @avejidah l'a dit dans le commentaire de sa réponse " est utilisé pour faire la moyenne des échantillons selon la probabilité qu'ils seront échantillonnés " .
Pour comprendre pourquoi c'est important, supposez est fixé à 1, nous avons 4 échantillons, chacun a comme suit:
0.1 0.2 0.3 0.4
Autrement dit, la première entrée a 10% d'être choisie, la seconde est 20% etc. Maintenant, en les inversant, nous obtenons:
10 5 3.333 2.5
Moyennage via (qui dans notre cas est ) on a:
2.5 1.25 0.8325 0.625 ...which would add up to '5.21'
Comme nous pouvons le voir, ils sont beaucoup plus proches de zéro que les versions simplement inversées (). Cela signifie que le gradient de notre réseau ne sera pas agrandi autant, ce qui entraînera beaucoup moins de variance lorsque nous entraînerons notre réseau.
Donc, sans ça avons-nous eu la chance de sélectionner l'échantillon le moins probable (), le gradient serait mis à l'échelle 10 fois. Ce serait encore pire avec des valeurs plus petites, disons chance, si notre replay d'expérience a plusieurs milliers d'entrées, ce qui est assez habituel.