La politique optimale est-elle toujours stochastique (c'est-à-dire une carte des états vers une distribution de probabilité sur les actions) si l'environnement est également stochastique?
Non.
Une politique optimale est généralement déterministe à moins que:
Des informations d'état importantes sont manquantes (un POMDP). Par exemple, dans une carte où l'agent n'est pas autorisé à connaître son emplacement exact ou à se souvenir des états précédents, et l'état qui lui est donné n'est pas suffisant pour lever l'ambiguïté entre les emplacements. Si l'objectif est d'arriver à un emplacement final spécifique, la politique optimale peut inclure des mouvements aléatoires afin d'éviter de rester coincé. Notez que l'environnement dans ce cas pourrait être déterministe (du point de vue de quelqu'un qui peut voir l'état entier), mais conduire à exiger une politique stochastique pour le résoudre.
Il existe une sorte de scénario de théorie des jeux minimax, où une politique déterministe peut être punie par l'environnement ou un autre agent. Pensez aux ciseaux / papier / pierre ou au dilemme du prisonnier.
Intuitivement, si l'environnement est déterministe (c'est-à-dire si l'agent est dans un état 𝑠 et prend une action 𝑎, alors l'état suivant 𝑠 ′ est toujours le même, quel que soit le pas de temps), alors la politique optimale doit également être déterministe (c'est-à-dire que ce devrait être une carte des états aux actions, et non à une distribution de probabilité sur les actions).
Cela semble raisonnable, mais vous pouvez pousser cette intuition plus loin avec n'importe quelle méthode basée sur une fonction de valeur:
Si vous avez trouvé une fonction de valeur optimale, alors agir avec avidité à son égard est la politique optimale.
L'énoncé ci-dessus n'est qu'une réécriture en langage naturel de l'équation d'optimalité de Bellman:
v∗( s ) = maxune∑r , s′p ( r , s′| s,a)(r+γv∗( s′))
c'est-à-dire que les valeurs optimales sont obtenues en choisissant toujours l'action qui maximise la récompense plus la valeur actualisée de l'étape suivante. L' opération maxa est déterministe (si nécessaire, vous pouvez rompre les liens pour la valeur max de manière déterministe avec par exemple une liste ordonnée d'actions).
Par conséquent, tout environnement qui peut être modélisé par un MDP et résolu par une méthode basée sur des valeurs (par exemple, itération de valeurs, Q-learning) a une politique optimale qui est déterministe.
Il est possible dans un tel environnement que la solution optimale ne soit pas du tout stochastique (c'est-à-dire que si vous ajoutez un caractère aléatoire à la politique optimale déterministe, la politique deviendra strictement pire). Cependant, lorsqu'il existe des liens pour une valeur maximale pour une ou plusieurs actions dans un ou plusieurs états, il existe plusieurs politiques optimales et déterministes équivalentes. Vous pouvez construire une politique stochastique qui les mélange dans n'importe quelle combinaison, et ce sera également optimal.