Pourquoi cette fusion s'est-elle avérée bénéfique?
Si vous pensez que le réseau valeur / politique partagé est constitué d'un composant partagé (les couches de réseau résiduel) avec un composant valeur et politique au-dessus plutôt que la séparation des préoccupations, cela a plus de sens.
La prémisse sous-jacente est que la partie partagée du réseau (ResNet) fournit une généralisation de haut niveau de l'entrée (les états du jeu menant au mouvement) qui est une bonne représentation d'entrée pour les réseaux Value et Policy peu profonds.
Lorsque c'est le cas, nous pouvons réduire considérablement la charge de calcul en entraînant un seul ResNet partagé et en l'utilisant pour deux réseaux beaucoup plus simples que de former deux ResNets pour la valeur et la stratégie. Dans leur cas, la formation des deux ensemble améliore également la régularisation et crée ainsi une représentation générale plus robuste.
Plus précisément, le papier Alpha Go Zero de Silver et al. , Maîtriser le jeu de Go sans connaissance humaine , déclare que:
La combinaison de la politique et de la valeur en un seul réseau a légèrement réduit la précision de la prédiction de déplacement, mais a réduit l'erreur de valeur et a augmenté les performances de jeu dans AlphaGo d'environ 600 Elo supplémentaires. Cela est en partie dû à une meilleure efficacité de calcul, mais plus important encore, le double objectif régularise le réseau en une représentation commune qui prend en charge plusieurs cas d'utilisation.
Cette technique peut-elle être appliquée en général ou uniquement dans des cas particuliers?
Comme les composants courants des bibliothèques de logiciels, cela n'a de sens que lorsque les problèmes que vous essayez de résoudre bénéficient d'une représentation partagée.
Vous pouvez l'utiliser si vous formez des classificateurs pour des tâches similaires, ou si vous formez une nouvelle tâche avec peu de données lorsque vous avez déjà un classificateur formé sur un ensemble de données plus grand et similaire .
En dehors de Go, il est souvent utilisé dans la reconnaissance d'image. Des réseaux pré-formés profonds tels que ceux des compétitions ImageNet ILSVRC sont couramment utilisés comme point de départ. Ce sont des classificateurs qui ont été formés (pendant des semaines!) Sur plus d'un million d'images.
Supposons ensuite que vous vouliez créer un réseau pour reconnaître votre marque préférée de vélos, vous commencez avec le pipeline général de reconnaissance d'image formé sur ImageNet, coupez les dernières couches qui font la classification réelle ("c'est un Border Collie") et ajoutez un petit nouveau classificateur pour sélectionner uniquement les vélos qui vous intéressent.
Étant donné que le classificateur pré-formé fournit déjà des concepts d'image de haut niveau qui sont de bons éléments de base pour la reconnaissance d'image (il classe 200 catégories), cela vous évite beaucoup de formation et en fait un classificateur très robuste.
Bien sûr, il existe de nombreux cas où les problèmes n'ont pas de représentations partagées utiles et ne bénéficient donc pas d'un réseau combiné. Néanmoins, c'est un outil utile dans les bonnes situations.
Recherchez Apprentissage par transfert ou Apprentissage multi-tâches pour en savoir plus à ce sujet.