Il existe de nombreuses approches pour cela. Il pourrait être possible de créer un analogue artificiel réaliste de la peur, tel qu'implémenté biologiquement chez les animaux, mais la réponse à la peur d'un animal réel est très importante et ne s'appliquerait pas aux robots IA plus simples disponibles actuellement. Par exemple, un animal qui entre dans un état de peur utilise généralement des hormones pour signaler des changements dans tout son corps, favorisant la dépense en ressources et la prise de risques («combat ou fuite»).
Dans l'apprentissage par renforcement de base, le réseau neuronal n'aurait pas besoin de décider directement d'activer un «mode peur». Au lieu de cela, vous pouvez utiliser une certaine conception de l'agent et de l'algorithme d'apprentissage pour vous aider à tirer des enseignements d'événements rares mais significatifs. Voici quelques idées:
Découvrez la relecture. Vous pouvez déjà le faire dans le scénario Pacman, si vous utilisez DQN ou quelque chose de similaire. Stocker la transition et la récompense de l'état qui a provoqué une grande récompense positive ou négative, et en tirer des enseignements à plusieurs reprises devrait compenser votre préoccupation
Balayage prioritaire. Vous pouvez utiliser des différences plus importantes entre la récompense prévue et la récompense réelle pour biaiser l'échantillonnage de votre mémoire de relecture vers les événements significatifs et ceux qui leur sont étroitement liés.
Planification. Avec un modèle prédictif - peut-être basé sur des transitions échantillonnées (vous pouvez réutiliser la mémoire de relecture d'expérience pour cela), ou peut-être un réseau de prédiction de transition d'état formé - alors vous pouvez envisager plusieurs étapes à venir en simulant. Il existe également une relation étroite entre RL et la planification prospective, ce sont des algorithmes très similaires. La différence est de savoir quels états et actions sont envisagés, et s'ils sont simulés ou expérimentés. L'expérience de la relecture brouille la ligne ici - elle peut être conçue comme un apprentissage de la mémoire ou une amélioration des prévisions pour la planification. La planification aide en optimisant les décisions sans avoir à répéter autant d'expériences - une combinaison de planification et d'apprentissage peut être beaucoup plus puissante que l'une ou l'autre isolément.
Sélection d'actions exploratoires plus intelligente. Epsilon-greedy, où vous effectuez une action gourmande ou une action complètement aléatoire, ignore complètement ce que vous avez peut-être déjà appris sur les actions alternatives et leur mérite relatif. Vous pouvez utiliser quelque chose comme Upper Confidence Bound avec un agent basé sur la valeur.
Dans un monde déterministe, augmentez la taille du lot pour l'apprentissage et la planification, car vous pouvez être sûr que lorsqu'une transition est apprise une fois, vous savez tout à ce sujet.
Vous devrez expérimenter dans chaque environnement. Vous pouvez créer des agents d'apprentissage plus conservateurs sur l'exploration à proximité de zones à faible récompense. Cependant, si l'environnement est tel qu'il est nécessaire de prendre des risques pour obtenir les meilleures récompenses (ce qui est souvent le cas dans les jeux), alors il peut ne pas être optimal en termes de temps d'apprentissage d'avoir un agent "timide". Par exemple, dans votre exemple de Pacman, parfois les fantômes doivent être évités, parfois ils doivent être chassés. Si l'agent a appris une forte aversion au départ, cela pourrait prendre beaucoup de temps pour surmonter cela et apprendre à les chasser après avoir mangé une mise sous tension.
Pour votre exemple de l'araignée, en tant que constructeur de l'expérience, vous savez que la morsure est mauvaise à chaque fois et que l'agent doit l'éviter autant que possible. Pour la plupart des algorithmes RL, il n'y a pas de telles connaissances, sauf acquises par l'expérience. Un modèle mondial MDP n'a pas besoin de correspondre au bon sens, il se peut qu'une morsure d'araignée soit mauvaise (-10 en récompense) 90% du temps et bonne 10% du temps (+1000 en récompense). L'agent ne peut le découvrir qu'en étant mordu plusieurs fois. . . RL ne part généralement d'aucun système pour émettre des hypothèses sur ce genre de chose, et il est impossible de trouver une règle générale sur tous les MDP possibles. Au lieu de cela, pour un système RL de base, vous pouvez envisager de modifier les hyperparamètres ou de vous concentrer sur les événements clés comme suggéré ci-dessus. En dehors d'un système RL de base, il pourrait être utile de reproduire d'autres choses,