1
Pourquoi DQN nécessite-t-il deux réseaux différents?
J'étais en train de passer par cette implémentation de DQN et je vois que sur les lignes 124 et 125 deux réseaux Q différents ont été initialisés. D'après ma compréhension, je pense qu'un réseau prédit l'action appropriée et le deuxième réseau prédit les valeurs Q cibles pour trouver l'erreur Bellman. …