But du bruit de Dirichlet dans le papier AlphaZero


10

Dans les articles AlphaGo Zero et AlphaZero de DeepMind , ils décrivent l'ajout de bruit de Dirichlet aux probabilités antérieures d'actions du nœud racine (état de la carte) dans Monte Carlo Tree Search:

Une exploration supplémentaire est obtenue en ajoutant du bruit de Dirichlet aux probabilités antérieures dans le nœud racine , en particulier , où et ; ce bruit garantit que tous les mouvements peuvent être essayés, mais la recherche peut toujours annuler les mauvais mouvements. P ( s , a ) = ( 1 - ε ) p a + ε η a η Dir ( 0,03 ) ε = 0,25s0P(s,a)=(1ε)pa+εηaηDir(0.03)ε=0.25

(AlphaGo Zero)

Et:

Le bruit de Dirichlet été ajouté aux probabilités antérieures dans le nœud racine; cela a été mis à l'échelle en proportion inverse du nombre approximatif de mouvements légaux dans une position typique, à une valeur de pour les échecs, le shogi et le go respectivement.α = { 0,3 ,Dir(α)α={0.3,0.15,0.03}

(AlphaZero)

Deux choses que je ne comprends pas:

  1. P(s, a)est un vecteur à dimensions. Est raccourci pour la distribution Dirichlet avec paramètres, chacun d' une valeur ?Dir ( α ) n αnDir(α)nα

  2. Je n'ai rencontré Dirichlet que comme conjugué avant la distribution multinomiale. Pourquoi at-il été choisi ici?

Pour le contexte, ce P(s, a)n'est qu'une composante du calcul du PUCT (arbre de confiance supérieur polynomial, une variante des limites de confiance supérieures) pour un état / action donné. Il est mis à l'échelle par une constante et une métrique pour combien de fois l'action donnée a été sélectionnée parmi ses frères et sœurs au cours des SCTM, et ajoutée à la valeur d'action estimée Q(s, a):

  • PUCT(s, a) = Q(s, a) + U(s, a).
  • U(s,a)=cpuctP(s,a)bN(s,b)1+N(s,a) .

1
Bon alors Dir (a) signifie en effet Dir (a, a, ...). Pour a <1, cela sera concentré près des vecteurs de base standard de R ^ n (les plus petits, les plus étroitement). Dirichlet (a) aide donc (1) à maintenir la somme des paramètres constante, (2) à se concentrer près des vecteurs de base et (3) à ne préférer aucun d'entre eux.
moine

Réponses:


6

α

απDir(α)(π)Cat(π)α

P(s,a)asDir(α)pi=P(s,a)ααi=0πDir(α)πi=0α

Dir(0.3)


3

α

Pour la question 2, les échantillons tirés d'une distribution de Dirichlet ont la propriété que les éléments résumeront à 1. Je suppose qu'ils l'utilisent pour s'assurer qu'après avoir ajouté le bruit, et les éléments résumeront toujours à 1.


Merci. En plus de résumer à un (ce que nous pourrions également faire en mettant à l'échelle un ensemble de distributions arbitraires), il préfère les vecteurs de base standard. Cela semble utile.
moine
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.