L' article d' AlphaGo Zero de Nature , «Maîtriser le jeu de Go sans connaissance humaine», affirme quatre différences majeures par rapport à la version précédente:
- Auto-apprentissage uniquement (non formé aux jeux humains)
- Utiliser uniquement le tableau et les pierres en entrée (pas de caractéristiques manuscrites).
- Utilisation d'un réseau de neurones unique pour les politiques et les valeurs
- Un nouvel algorithme de recherche d'arborescence qui utilise ce réseau combiné stratégie / valeur pour guider où rechercher les bons mouvements.
Les points (1) et (2) ne sont pas nouveaux dans l'apprentissage par renforcement, mais améliorent le logiciel AlphaGo précédent comme indiqué dans les commentaires à votre question. Cela signifie simplement qu'ils utilisent maintenant un apprentissage par renforcement pur à partir de poids initialisés au hasard. Ceci est rendu possible par des algorithmes d'apprentissage meilleurs et plus rapides.
Leur affirmation ici est "Notre principale contribution est de démontrer que la performance surhumaine peut être obtenue sans connaissance du domaine humain." (p. 22).
Les points (3) et (4) sont nouveaux dans le sens où leur algorithme est plus simple et plus général que leur approche précédente. Ils mentionnent également qu'il s'agit d'une amélioration par rapport aux travaux antérieurs de Guo et al.
L'unification du réseau politique / valeur (3) leur permet de mettre en œuvre une variante plus efficace de la recherche d'arbre Monte-Carlo pour rechercher de bons mouvements et en utilisant simultanément l'arbre de recherche pour former plus rapidement le réseau (4). C'est très puissant.
De plus, ils décrivent un certain nombre de détails d'implémentation intéressants comme le traitement par lots et la réutilisation des structures de données pour optimiser la recherche de nouveaux mouvements.
L'effet est qu'il a besoin de moins de puissance de calcul, fonctionnant sur 4 TPU plutôt que sur 176 GPU et 48 TPU pour les versions précédentes de leur logiciel.
Cela le rend définitivement "nouveau" dans le contexte du logiciel Go. Je crois que (3) et (4) sont également "nouveaux" dans un contexte plus large et seront applicables dans d'autres domaines d'apprentissage par renforcement tels que par exemple la robotique.