Pourquoi le réseau neuronal fusionné d'AlphaGo Zero est-il plus efficace que deux réseaux neuronaux distincts?

AlphaGo Zero contient plusieurs améliorations par rapport à ses prédécesseurs. Les détails architecturaux d'Alpha Go Zero peuvent être vus dans cette feuille de triche .

L'une de ces améliorations consiste à utiliser un seul réseau de neurones qui calcule les probabilités de déplacement et la valeur de l'état en même temps, tandis que les anciennes versions utilisaient deux réseaux de neurones distincts. Il a été démontré que le réseau neuronal fusionné est plus efficace selon l'article:

Il utilise un réseau neuronal plutôt que deux. Les versions antérieures d'AlphaGo utilisaient un «réseau de politique» pour sélectionner le prochain coup à jouer et un «réseau de valeur» pour prédire le gagnant du jeu de chaque position. Ceux-ci sont combinés dans AlphaGo Zero, ce qui lui permet d'être formé et évalué plus efficacement.

Cela me semble contre-intuitif, car du point de vue de la conception de logiciels, cela viole le principe de séparation des préoccupations . C'est pourquoi je me demande pourquoi cette fusion s'est avérée bénéfique.

Cette technique - fusionner différentes tâches dans un seul réseau de neurones pour améliorer l'efficacité - peut-elle être appliquée à d'autres réseaux de neurones en général ou cela nécessite-t-il certaines conditions pour fonctionner?

— Demento
source

Pourquoi cette fusion s'est-elle avérée bénéfique?

Si vous pensez que le réseau valeur / politique partagé est constitué d'un composant partagé (les couches de réseau résiduel) avec un composant valeur et politique au-dessus plutôt que la séparation des préoccupations, cela a plus de sens.

La prémisse sous-jacente est que la partie partagée du réseau (ResNet) fournit une généralisation de haut niveau de l'entrée (les états du jeu menant au mouvement) qui est une bonne représentation d'entrée pour les réseaux Value et Policy peu profonds.

Lorsque c'est le cas, nous pouvons réduire considérablement la charge de calcul en entraînant un seul ResNet partagé et en l'utilisant pour deux réseaux beaucoup plus simples que de former deux ResNets pour la valeur et la stratégie. Dans leur cas, la formation des deux ensemble améliore également la régularisation et crée ainsi une représentation générale plus robuste.

Plus précisément, le papier Alpha Go Zero de Silver et al. , Maîtriser le jeu de Go sans connaissance humaine , déclare que:

La combinaison de la politique et de la valeur en un seul réseau a légèrement réduit la précision de la prédiction de déplacement, mais a réduit l'erreur de valeur et a augmenté les performances de jeu dans AlphaGo d'environ 600 Elo supplémentaires. Cela est en partie dû à une meilleure efficacité de calcul, mais plus important encore, le double objectif régularise le réseau en une représentation commune qui prend en charge plusieurs cas d'utilisation.

Cette technique peut-elle être appliquée en général ou uniquement dans des cas particuliers?

Comme les composants courants des bibliothèques de logiciels, cela n'a de sens que lorsque les problèmes que vous essayez de résoudre bénéficient d'une représentation partagée.

Vous pouvez l'utiliser si vous formez des classificateurs pour des tâches similaires, ou si vous formez une nouvelle tâche avec peu de données lorsque vous avez déjà un classificateur formé sur un ensemble de données plus grand et similaire .

En dehors de Go, il est souvent utilisé dans la reconnaissance d'image. Des réseaux pré-formés profonds tels que ceux des compétitions ImageNet ILSVRC sont couramment utilisés comme point de départ. Ce sont des classificateurs qui ont été formés (pendant des semaines!) Sur plus d'un million d'images.

Supposons ensuite que vous vouliez créer un réseau pour reconnaître votre marque préférée de vélos, vous commencez avec le pipeline général de reconnaissance d'image formé sur ImageNet, coupez les dernières couches qui font la classification réelle ("c'est un Border Collie") et ajoutez un petit nouveau classificateur pour sélectionner uniquement les vélos qui vous intéressent.

Étant donné que le classificateur pré-formé fournit déjà des concepts d'image de haut niveau qui sont de bons éléments de base pour la reconnaissance d'image (il classe 200 catégories), cela vous évite beaucoup de formation et en fait un classificateur très robuste.

Bien sûr, il existe de nombreux cas où les problèmes n'ont pas de représentations partagées utiles et ne bénéficient donc pas d'un réseau combiné. Néanmoins, c'est un outil utile dans les bonnes situations.

Recherchez Apprentissage par transfert ou Apprentissage multi-tâches pour en savoir plus à ce sujet.

— mjul
source

Si l'on veut utiliser les principes du génie logiciel pour analyser l'architecture de ce réseau de neurones, je voudrais également souligner que le réseau de blocs résiduels sur lequel reposent les chefs de valeur et de politique respecte le principe DRY. En dépendant du même composant (le réseau de blocs résiduels) pour prétraiter les données avant de transmettre ces données aux autres composants du pipeline (les chefs de valeur et de stratégie), ils garantissent que chacun traitera la même représentation de l'entrée d'origine. La duplication de ce traitement avec deux réseaux séparés garantit presque la divergence dans le temps.

— sadakatsu