Dans l'article de DeepMind sur Deep Q-Learning pour les jeux vidéo Atari ( ici ), ils utilisent une méthode epsilon-greedy pour l'exploration pendant la formation. Cela signifie que lorsqu'une action est sélectionnée pendant l'entraînement, elle est choisie soit comme action avec la valeur q la plus élevée, soit comme action aléatoire. Le choix entre ces deux est aléatoire et basé sur la valeur de epsilon, et epsilon est recuit pendant la formation de telle sorte qu'au départ, de nombreuses actions aléatoires sont prises (exploration), mais à mesure que la formation progresse, de nombreuses actions avec les valeurs q maximales sont prises (exploitation).
Ensuite, pendant les tests, ils utilisent également cette méthode epsilon-greedy, mais avec epsilon à une valeur très faible, de sorte qu'il existe un fort biais vers l'exploitation plutôt que l'exploration, favorisant le choix de l'action avec la valeur q la plus élevée par rapport à une action aléatoire. Cependant, des actions aléatoires sont encore parfois choisies (5% du temps).
Ma question est la suivante: pourquoi une exploration est-elle nécessaire à ce stade, étant donné que la formation a déjà été effectuée? Si le système a appris la politique optimale, alors pourquoi l'action ne peut-elle pas toujours être choisie comme ayant la valeur q la plus élevée? L'exploration ne doit-elle pas se faire uniquement lors de la formation, puis une fois la politique optimale apprise, l'agent peut simplement choisir à plusieurs reprises l'action optimale?
Merci!