Le jeu DQN Atari de DeepMind apprenait-il simultanément?

9

DeepMind déclare que son réseau Q profond (DQN) a été en mesure d'adapter continuellement son comportement tout en apprenant à jouer à 49 jeux Atari.

Après avoir appris tous les jeux avec le même réseau neuronal, l'agent était-il en mesure de les jouer tous à des niveaux `` surhumains '' simultanément (chaque fois qu'il était présenté au hasard avec l'un des jeux) ou ne pouvait-il être bon que pour un jeu à la fois parce que la commutation besoin d'un ré-apprentissage?

neural-networks deep-learning deepmind

— Dion
source

"Après avoir appris tous les jeux avec le même réseau neuronal". Est-ce que cela signifie la même architecture NN OU la même architecture et un seul ensemble de poids?

— Ankur

@Ankur en fait, je ne suis pas sûr - c'est ma compréhension (limitée) qu'ils ont utilisé la même architecture et n'ont pas réinitialisé les poids entre les jeux.

— Dion

2

La commutation a nécessité une réapprentissage.

Notez également que :

Nous utilisons la même architecture de réseau, l'algorithme d'apprentissage et les paramètres d'hyperparamètres sur les sept jeux, ce qui montre que notre approche est suffisamment robuste pour fonctionner sur une variété de jeux sans incorporer d'informations spécifiques au jeu. Bien que nous ayons évalué nos agents sur les jeux réels et non modifiés, nous avons apporté un changement à la structure de récompense des jeux pendant la formation uniquement.

et

le réseau a surpassé tous les algorithmes RL précédents sur six des sept jeux que nous avons essayés et a surpassé un joueur humain expert sur trois d'entre eux.

— Franck Dernoncourt
source

1

La commutation nécessite un réapprentissage, le réseau n'avait pas un seul ensemble de poids qui lui permettait de bien jouer à tous les jeux. Cela est dû au problème catastrophique de l'oubli.

Cependant, un travail récent a été fait pour surmonter ce problème:

"Surmonter l'oubli catastrophique dans les réseaux de neurones", 2016

Papier: https://arxiv.org/pdf/1612.00796v1.pdf

— Rien
source