But du bruit de Dirichlet dans le papier AlphaZero

10

Dans les articles AlphaGo Zero et AlphaZero de DeepMind , ils décrivent l'ajout de bruit de Dirichlet aux probabilités antérieures d'actions du nœud racine (état de la carte) dans Monte Carlo Tree Search:

Une exploration supplémentaire est obtenue en ajoutant du bruit de Dirichlet aux probabilités antérieures dans le nœud racine , en particulier , où et ; ce bruit garantit que tous les mouvements peuvent être essayés, mais la recherche peut toujours annuler les mauvais mouvements. $s_0$ $P(s, a) = (1−\varepsilon)p_a+ \varepsilon \eta_a$ $\eta \sim \text{Dir}(0.03)$ $\varepsilon = 0.25$

(AlphaGo Zero)

Et:

Le bruit de Dirichlet été ajouté aux probabilités antérieures dans le nœud racine; cela a été mis à l'échelle en proportion inverse du nombre approximatif de mouvements légaux dans une position typique, à une valeur de pour les échecs, le shogi et le go respectivement. $\text{Dir}(\alpha)$ $\alpha = \{0.3, \; 0.15, \; 0.03\}$

(AlphaZero)

Deux choses que je ne comprends pas:

P(s, a)est un vecteur à dimensions. Est raccourci pour la distribution Dirichlet avec paramètres, chacun d' une valeur ? $n$ $\text{Dir}(\alpha)$ $n$ $\alpha$
Je n'ai rencontré Dirichlet que comme conjugué avant la distribution multinomiale. Pourquoi at-il été choisi ici?

Pour le contexte, ce P(s, a)n'est qu'une composante du calcul du PUCT (arbre de confiance supérieur polynomial, une variante des limites de confiance supérieures) pour un état / action donné. Il est mis à l'échelle par une constante et une métrique pour combien de fois l'action donnée a été sélectionnée parmi ses frères et sœurs au cours des SCTM, et ajoutée à la valeur d'action estimée Q(s, a):

PUCT(s, a) = Q(s, a) + U(s, a).
$U(s,a) = c_{\text{puct}} P(s,a) \frac{\sqrt{\sum_b N(s,b)}}{1 + N(s,a)}$ .

machine-learning neural-networks dirichlet-distribution

— moine
source

1

Bon alors Dir (a) signifie en effet Dir (a, a, ...). Pour a <1, cela sera concentré près des vecteurs de base standard de R ^ n (les plus petits, les plus étroitement). Dirichlet (a) aide donc (1) à maintenir la somme des paramètres constante, (2) à se concentrer près des vecteurs de base et (3) à ne préférer aucun d'entre eux.

— moine

6

$\alpha$

$\alpha$ $\pi$ $Dir(\alpha)(\pi)$ $Cat(\pi)$ $\alpha$

P(s,a)as $Dir(\alpha)$ $pi=$ P(s,a) $\alpha$ $\alpha_i=0$ $\pi\sim Dir(\alpha)$ $\pi_i=0$ $\alpha$

$Dir(0.3)$

— Tomáš Gavenčiak
source

3

$\alpha$

Pour la question 2, les échantillons tirés d'une distribution de Dirichlet ont la propriété que les éléments résumeront à 1. Je suppose qu'ils l'utilisent pour s'assurer qu'après avoir ajouté le bruit, et les éléments résumeront toujours à 1.

— Max S.
source

Merci. En plus de résumer à un (ce que nous pourrions également faire en mettant à l'échelle un ensemble de distributions arbitraires), il préfère les vecteurs de base standard. Cela semble utile.

— moine