Je pense que l'OP confondait AlphaGo avec l'alpha-bêta. En alpha-bêta, vous utiliseriez en effet le réseau de règles pour aider à l'élagage, mais pas ici. Encore une fois, il n'y a pas d'élagage car l'algorithme repose sur la recherche d'arbre Monte-Carlo (SCTM).
Quiconque pense que ma réponse est trop longue peut passer à la section récapitulative, où j'explique pourquoi les deux réseaux ne sont pas redondants.
Dans l'exemple suivant, je ferai quelques simplifications pour rendre mes idées plus faciles à comprendre.
Exemple:
Imaginez que vous ayez une position où il y a deux mouvements légaux. Le premier coup est un mort-perdu pour vous, cependant, le deuxième coup vous donne un avantage gagnant.
- Premier mouvement: perte forcée pour vous
- Deuxième coup: victoire forcée pour vous
Réseau d'évaluation
Supposons que le réseau d'évaluation que Google vous propose est parfait. Il peut évaluer parfaitement n'importe quelle position de feuille dans notre exemple. Nous ne changerons pas notre réseau de valeur dans l'exemple.
Pour simplifier notre exemple, supposons que notre réseau de valeur donne:
- -1000 pour toute position de feuille qui est une perte pour vous
- +1000 pour toute position de feuille qui est une victoire pour vous
Réseau politique
Supposons que Google vous propose deux réseaux de règles. Les probabilités générées pour notre position sont:
- Politique 1: 0,9 pour le coup 1 et 0,1 pour le coup 2
- Politique 2: 0,2 pour le coup 1 et 0,8 pour le coup 2.
Notez que notre premier réseau de règles donne une probabilité antérieure incorrecte pour notre exemple. Il donne 0,9 pour le coup 1, qui est un coup perdant. C'est très bien car même Google ne pouvait pas former un réseau de politique parfait.
Jouer avec le premier réseau politique
AlphaGo doit générer une simulation avec Monte-Carlo, et il doit choisir le mouvement 1 ou 2. Maintenant, AlphaGo dessine une variable aléatoire uniformément distribuée, et il choisira:
- Déplacez 1 si le nombre aléatoire est <= 0,9
- Déplacez 2 si le nombre aléatoire est> 0,9
AlphaGo est donc beaucoup plus susceptible de choisir le mouvement perdant à simuler (dans notre toute première simulation). Dans notre première simulation, nous utiliserons également le réseau de valeurs pour obtenir un score pour la simulation. Dans le papier, c'est:
Cette valeur serait -1000, car cette simulation entraînerait une perte.
Maintenant, AlphaGo doit générer la deuxième simulation. Encore une fois, le premier mouvement serait beaucoup plus susceptible de choisir. Mais finalement, le deuxième mouvement serait choisi parce que:
- Notre probabilité antérieure pour le deuxième mouvement est de 0,1, et non de zéro
- AlphaGo est encouragé à essayer des mouvements peu explorés. Dans l'article, cela se fait par cette équation:
Notez que N
c'est le nombre de coups recherchés pour le coup et c'est dans le dénominateur. Plus notre premier mouvement est recherché, plus la u
fonction est petite . Ainsi, la probabilité de sélectionner notre deuxième coup s'améliore car AlphaGo choisit en fait un coup par cette équation:
C'est l' équation clé . Veuillez le regarder attentivement:
- Il a un terme
P
pour la probabilité a priori (donné par le réseau politique)
- Il a un terme
Q
pour les scores d'évaluation (donnés par le réseau de valeur)
Maintenant, nous savons que notre deuxième déménagement sera finalement choisi. Lorsque cela se produit, le réseau de valeur donne +1000. Cela augmentera Q
, ce qui rendra le deuxième coup beaucoup plus probable dans les simulations ultérieures.
Avec suffisamment de simulations, le nombre de fois où le deuxième coup est choisi pour la simulation devrait être supérieur au nombre de fois où le premier coup est choisi.
Enfin, le mouvement qu'AlphaGo décide de faire est (cité dans le journal):
Une fois la recherche terminée, l'algorithme choisit le mouvement le plus visité à partir de la position racine.
Jouer avec le deuxième réseau politique
Notre deuxième réseau de stratégie aura besoin de moins d'itérations pour choisir le mouvement 2 car sa probabilité donnée par le réseau de stratégie est correcte en premier lieu.
Remarques
Tout ici est très similaire à l' Bayesian
analyse. Nous commençons avec une probabilité antérieure (donnée par le réseau de politique), puis nous générons des données pour déplacer la distirubtion de probabilité (donnée par le réseau de valeurs).
Résumés
- Le réseau de règles est utilisé pour générer des probabilités antérieures afin de guider le mouvement que la recherche Monte-Carlo devrait choisir
- Le réseau de valeurs est utilisé pour générer des données pour valider le réseau de règles. Si le réseau de politique est mauvais, AlphaGo aurait besoin de plus de ressources informatiques pour converger (si jamais).
- Vous pouvez y penser comme une analyse bayésienne