Q1: Existe-t-il des méthodes communes ou acceptées pour gérer un environnement non stationnaire dans l'apprentissage par renforcement en général?
α
Cependant , cela concerne la non-stationnarité à plus long terme, comme le problème de changement entre les épisodes ou sur une échelle de temps encore plus longue. Votre description ressemble davantage à celle que vous souhaitez modifier la structure des récompenses en fonction des mesures prises par l'agent, dans un court laps de temps. Cette réponse dynamique aux actions est mieux définie comme un MDP différent et plus complexe, et non comme une "non-stationnarité" dans un MDP plus simple.
Un agent ne peut pas apprendre les modifications de l'environnement qu'il n'a pas encore échantillonnées, donc la modification de la structure des récompenses n'empêchera pas l'agent de revenir aux états précédemment visités. À moins que vous n'utilisiez quelque chose comme un RNN dans l'agent, l'agent n'aura pas de "mémoire" de ce qui s'est passé avant dans l'épisode autre que ce qui est représenté dans l'état actuel (sans doute, l'utilisation d'un RNN fait la couche cachée de la partie RNN de l'État). Sur plusieurs épisodes, si vous utilisez un agent de Q-learning tabulaire, l'agent apprendra simplement que certains états ont une faible valeur, il ne pourra pas apprendre que la deuxième ou la troisième visite de l'état provoque cet effet, car il n'a pas façon de représenter ces connaissances. Il ne pourra pas s'adapter au changement assez rapidement pour apprendre en ligne et au milieu de l'épisode.
Q2: Dans mon gridworld, la fonction de récompense change lorsqu'un État est visité. Tout ce que je veux que mon agent apprenne, c'est "Ne revenez pas en arrière sauf si vous en avez vraiment besoin", mais cela rend l'environnement non stationnaire.
Si c'est tout ce que vous avez besoin que l'agent apprenne, cela peut peut-être être encouragé par une structure de récompense appropriée. Avant de pouvoir faire cela, vous devez vous comprendre ce que «vraiment besoin de» implique et à quel point cela doit être logique. Vous pouvez être d'accord, mais simplement en attribuant une pénalité pour visiter n'importe quel endroit que l'agent a déjà ou récemment visité.
Cette règle très simple peut-elle / devrait-elle être intégrée dans le modèle MDP, et comment?
Oui, vous devez ajouter les informations sur les lieux visités dans l'état. Cela rendra immédiatement votre modèle d'état plus complexe qu'un simple monde de grille, augmentant la dimensionnalité du problème, mais il est inévitable. La plupart des problèmes du monde réel dépassent très rapidement les exemples de jouets fournis pour enseigner les concepts RL.
Une alternative consiste à présenter le problème comme un processus de décision de Markov partiellement observable (POMDP) . Dans ce cas, le "vrai" état inclurait toujours toute l'histoire nécessaire pour calculer les récompenses (et comme il s'agit d'un problème de jouet sur un ordinateur, vous devrez toujours le représenter d'une manière ou d'une autre), mais l'agent peut tenter d'apprendre à partir de restrictions connaissance de l'état, tout ce que vous laissez observer. En général, c'est une approche beaucoup plus difficile que d'élargir la représentation de l'État, et je ne la recommanderais pas ici. Cependant, si vous trouvez l'idée intéressante, vous pouvez utiliser votre problème pour explorer les POMDP. Voici un article récent (de l'équipe Deep Mind de Google, 2015) qui examine deux algorithmes RL combinés avec des RNN pour résoudre les POMDP.
Q3: J'ai étudié le Q-learning avec la relecture d'expérience comme solution pour faire face aux environnements non stationnaires, car il décorrèle les mises à jour successives. S'agit-il de l'utilisation correcte de la méthode ou s'agit-il davantage de rendre plus efficace l'apprentissage des données?
La relecture d'expérience n'aidera pas dans les environnements non stationnaires. En fait, cela pourrait aggraver leurs performances. Cependant, comme déjà indiqué, votre problème ne concerne pas vraiment un environnement non stationnaire, mais la gestion d'une dynamique d'état plus complexe.
648 × 8264
Avec un estimateur de fonction, la relecture d'expérience est très utile, car sans elle, le processus d'apprentissage est susceptible d'être instable. La récente approche DQN pour jouer aux jeux Atari utilise la relecture d'expérience pour cette raison.