Dans les articles AlphaGo Zero et AlphaZero de DeepMind , ils décrivent l'ajout de bruit de Dirichlet aux probabilités antérieures d'actions du nœud racine (état de la carte) dans Monte Carlo Tree Search:
Une exploration supplémentaire est obtenue en ajoutant du bruit de Dirichlet aux probabilités antérieures dans le nœud racine , en particulier , où et ; ce bruit garantit que tous les mouvements peuvent être essayés, mais la recherche peut toujours annuler les mauvais mouvements. P ( s , a ) = ( 1 - ε ) p a + ε η a η ∼ Dir ( 0,03 ) ε = 0,25
(AlphaGo Zero)
Et:
Le bruit de Dirichlet été ajouté aux probabilités antérieures dans le nœud racine; cela a été mis à l'échelle en proportion inverse du nombre approximatif de mouvements légaux dans une position typique, à une valeur de pour les échecs, le shogi et le go respectivement.α = { 0,3 ,
(AlphaZero)
Deux choses que je ne comprends pas:
P(s, a)est un vecteur à dimensions. Est raccourci pour la distribution Dirichlet avec paramètres, chacun d' une valeur ?Dir ( α ) n αJe n'ai rencontré Dirichlet que comme conjugué avant la distribution multinomiale. Pourquoi at-il été choisi ici?
Pour le contexte, ce P(s, a)n'est qu'une composante du calcul du PUCT (arbre de confiance supérieur polynomial, une variante des limites de confiance supérieures) pour un état / action donné. Il est mis à l'échelle par une constante et une métrique pour combien de fois l'action donnée a été sélectionnée parmi ses frères et sœurs au cours des SCTM, et ajoutée à la valeur d'action estimée Q(s, a):
PUCT(s, a) = Q(s, a) + U(s, a).- .