Réponses:
Du papier Deep Stack :
Cela semble être pour la formation:
Pour le réseau de tours, dix millions de situations de tours de poker (après la distribution de la carte de tour) ont été générées et résolues avec 6144 cœurs CPU du cluster de recherche Calcul Québec MP2, en utilisant plus de 175 années de calcul. Pour le réseau de flop, un million de situations de flop de poker (après la distribution des cartes de flop) ont été générées et résolues. Ces situations ont été résolues à l'aide du solveur à profondeur limitée de DeepStack avec le réseau de virages utilisé pour les valeurs contrefactuelles dans les états publics immédiatement après la fiche de virage. Nous avons utilisé un cluster de 20 GPUS et la moitié d'une année GPU de temps de calcul. Pour le réseau auxiliaire, dix millions de situations ont été générées et les valeurs cibles ont été obtenues en énumérant les 22 100 flops possibles et en faisant la moyenne des valeurs contrefactuelles à partir de la sortie du réseau de flops.
Et cela pour le jeu réel:
Le calcul de résolution et les évaluations de réseau neuronal sont tous deux implémentés dans Torch7 (53) et exécutés sur une seule carte graphique NVIDIA GeForce GTX 1080.
À titre de comparaison: la version distribuée d'AlphaGo nécessitait 1 920 processeurs et 280 GPU.