La politique optimale est-elle toujours stochastique si l'environnement est également stochastique?

La politique optimale est-elle toujours stochastique (c'est-à-dire une carte des états vers une distribution de probabilité sur les actions) si l'environnement est également stochastique?

Intuitivement, si l'environnement est déterministe (c'est-à-dire si l'agent est dans un état $s$ et prend l'action $a$ , alors l'état suivant $s'$ est toujours le même, quel que soit le pas de temps), alors la politique optimale doit également être déterministe (c'est-à-dire que ce devrait être une carte des états aux actions, et non à une distribution de probabilité sur les actions).

— nbro
source

Voici une question connexe: mathoverflow.net/q/44677 .

— nbro

Réponses:

La politique optimale est-elle toujours stochastique (c'est-à-dire une carte des états vers une distribution de probabilité sur les actions) si l'environnement est également stochastique?

Non.

Une politique optimale est généralement déterministe à moins que:

Des informations d'état importantes sont manquantes (un POMDP). Par exemple, dans une carte où l'agent n'est pas autorisé à connaître son emplacement exact ou à se souvenir des états précédents, et l'état qui lui est donné n'est pas suffisant pour lever l'ambiguïté entre les emplacements. Si l'objectif est d'arriver à un emplacement final spécifique, la politique optimale peut inclure des mouvements aléatoires afin d'éviter de rester coincé. Notez que l'environnement dans ce cas pourrait être déterministe (du point de vue de quelqu'un qui peut voir l'état entier), mais conduire à exiger une politique stochastique pour le résoudre.
Il existe une sorte de scénario de théorie des jeux minimax, où une politique déterministe peut être punie par l'environnement ou un autre agent. Pensez aux ciseaux / papier / pierre ou au dilemme du prisonnier.

Intuitivement, si l'environnement est déterministe (c'est-à-dire si l'agent est dans un état 𝑠 et prend une action 𝑎, alors l'état suivant 𝑠 ′ est toujours le même, quel que soit le pas de temps), alors la politique optimale doit également être déterministe (c'est-à-dire que ce devrait être une carte des états aux actions, et non à une distribution de probabilité sur les actions).

Cela semble raisonnable, mais vous pouvez pousser cette intuition plus loin avec n'importe quelle méthode basée sur une fonction de valeur:

Si vous avez trouvé une fonction de valeur optimale, alors agir avec avidité à son égard est la politique optimale.

L'énoncé ci-dessus n'est qu'une réécriture en langage naturel de l'équation d'optimalité de Bellman:

v^{*} (s) = {max}_{a} \sum_{r, s^{'}} p (r, s^{'} | s, a) (r + γ v^{*} (s^{'}))

$v^*(s) = \text{max}_a \sum_{r,s'}p(r,s'|s,a)(r+\gamma v^*(s'))$

c'est-à-dire que les valeurs optimales sont obtenues en choisissant toujours l'action qui maximise la récompense plus la valeur actualisée de l'étape suivante. L' opération $\text{max}_a$ est déterministe (si nécessaire, vous pouvez rompre les liens pour la valeur max de manière déterministe avec par exemple une liste ordonnée d'actions).

Par conséquent, tout environnement qui peut être modélisé par un MDP et résolu par une méthode basée sur des valeurs (par exemple, itération de valeurs, Q-learning) a une politique optimale qui est déterministe.

Il est possible dans un tel environnement que la solution optimale ne soit pas du tout stochastique (c'est-à-dire que si vous ajoutez un caractère aléatoire à la politique optimale déterministe, la politique deviendra strictement pire). Cependant, lorsqu'il existe des liens pour une valeur maximale pour une ou plusieurs actions dans un ou plusieurs états, il existe plusieurs politiques optimales et déterministes équivalentes. Vous pouvez construire une politique stochastique qui les mélange dans n'importe quelle combinaison, et ce sera également optimal.

— Neil Slater
source

"Il est possible dans un tel environnement qu'aucune politique stochastique ne soit optimale", vous voulez dire une politique déterministe?

— nbro

@nbro: Non, je veux vraiment dire qu'il n'y a pas de politique stochastique optimale. Tel est généralement le cas. Pensez par exemple à un simple solveur de labyrinthe. Si la solution déterministe optimale est un chemin unique du début à la fin, l'ajout de tout caractère aléatoire rendra la politique strictement pire. Cela ne change pas si l'environnement ajoute du bruit aléatoire (par exemple, les mouvements échouent parfois)

— Neil Slater

Je comprends maintenant. Vous dites qu'il y a toujours une politique déterministe, alors une politique qui est stochastique et dérivée de la politique déterministe sera probablement pire que la politique déterministe optimale.

— nbro

@nbro: Oui, c'est ça.

— Neil Slater

Je dirais non.

$n$ $p_i$ $i$ $n$

$p_i$

Évidemment, si vous êtes dans un environnement où vous jouez contre un autre agent (un cadre de théorie des jeux), votre politique optimale sera certainement stochastique (pensez à un jeu de poker, par exemple).

— Adrien Forbu
source

p_{i}

$p_i$

p_{i}

$p_i$

i

$i$

@nbro: C'est certain dans l'attente, c'est ce que la politique optimale maximise. Les politiques n'essaient pas de deviner les générateurs de nombres aléatoires, ce qui est supposé impossible (si cela était possible en raison d'un état interne du système, vous devez soit ajouter cet état interne au modèle, soit le traiter comme un POMDP)

— Neil Slater

@NeilSlater Ok. Mais la conclusion changerait-elle si le temps est fini? Si vous avez un temps limité pour jouer, l'attente, je suppose, doit également tenir compte du temps disponible pour jouer.

— nbro

@nbro: Cela peut changer vos décisions, mais il ne s'agit pas vraiment de la politique optimale. La politique optimale pour les armes de bandit est encore déterministe, à propos de l'utilisation du meilleur bras, mais vous ne le savez pas. Il s'agit de l'exploration contre l'exploitation. Vous pourriez dire cela comme ayant "une politique optimale pour explorer un problème de bandit" peut-être. Pas la terminologie utilisée par exemple dans Sutton & Barto, mais peut-être que certains parctionnistes le disent, je ne sais pas. . .

— Neil Slater

L'environnement ne contient qu'un seul état dans lequel vous faites face à la même décision encore et encore: quel bras dois-je choisir?

— Adrien Forbu

Je pense à un paysage de probabilité, dans lequel vous vous retrouvez en tant qu'acteur, avec divers pics et creux inconnus. Une bonne approche déterministe est toujours susceptible de vous conduire à l'optimum local le plus proche, mais pas nécessairement à l'optimum global. Pour trouver l'optimum global, quelque chose comme un algorithme MCMC permettrait d'accepter stochastiquement un résultat temporairement pire afin d'échapper à un optimum local et de trouver l'optimum global. Mon intuition est que dans un environnement stochastique, cela serait également vrai.

— Jonathan Moore
source