J'essaie de comprendre le célèbre article "Jouer à Atari avec l'apprentissage par renforcement profond" ( pdf ). Je ne suis pas clair sur la différence entre une époque et un épisode . Dans l'algorithme , la boucle externe est sur des épisodes , tandis que sur la figure l'axe des x est étiqueté époque . Dans le contexte de l'apprentissage par renforcement, je ne sais pas ce que signifie une époque. Une époque est-elle une boucle extérieure autour de la boucle d'épisode?