Une politique est-elle toujours déterministe dans l'apprentissage par renforcement?

Dans l'apprentissage par renforcement, une politique est-elle toujours déterministe ou est-ce une distribution de probabilité sur les actions (à partir desquelles nous échantillonnons)? Si la politique est déterministe, pourquoi pas la fonction valeur, qui est définie à un état donné pour une politique donnée comme suit $\pi$

V^{π} (s) = E [\sum_{t > 0} γ^{t} r_{t} | s_{0} = s, π]

$V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right]$

une sortie ponctuelle?

Dans la définition ci-dessus, nous prenons une attente. Quelle est cette attente terminée?

Une politique peut-elle conduire à des itinéraires différents?

reinforcement-learning deterministic-policy stochastic-policy

— MiloMinderbinder
source

Une question connexe sur StackOverflow: stackoverflow.com/q/46260775/712995

— Maxim

Les questions sont multiples: 1. Une politique est-elle toujours déterministe? 2. Si la politique est déterministe, la valeur ne devrait-elle pas également être déterministe? 3. À quoi s'attend-on dans l'estimation de la fonction de valeur? Votre dernière question n'est pas très claire "Une politique peut-elle conduire à des itinéraires qui ont des valeurs actuelles différentes?" mais je pense que vous voulez dire: 4. Une politique peut-elle conduire à des itinéraires différents?

Une politique est une fonction qui peut être déterministe ou stochastique. Il dicte les actions à entreprendre dans un état particulier. La distribution est utilisée pour une politique stochastique et une fonction de mappage est utilisée pour une politique déterministe, où est l'ensemble des états possibles et est l'ensemble des actions possibles . $\pi(a\mid s)$ $\pi:S \rightarrow A$ $S$ $A$
La fonction de valeur n'est pas déterministe. La valeur (d'un état) est la récompense attendue si vous commencez à cet état et continuez de suivre une politique. Même si la politique est déterministe, la fonction de récompense et l'environnement peuvent ne pas l'être.
L'attente dans cette formule est sur toutes les routes possibles à partir de l'état . Habituellement, les itinéraires ou les chemins sont décomposés en plusieurs étapes, qui sont utilisées pour former des estimateurs de valeur. Ces étapes peuvent être représentées par le tuple (état, action, récompense, état suivant) $s$ $(s,a,r,s')$
Ceci est lié à la réponse 2, la politique peut conduire à des chemins différents (même une politique déterministe) car l'environnement n'est généralement pas déterministe.

— UN D
source

pouvez-vous me donner un exemple d'environnement non déterministe? comme je le vois, si l'agent applique l'action à un environnement dans l'état , il change de manière déterministe l'environnement en

a

$a$

s

$s$

s^{‘}

$s^`$

— MiloMinderbinder

Un exemple classique est un robot qui prend des mouvements à gauche d'un pas (action) mais la surface est glissante (marchant sur la glace) donc il se déplace en fait 2 pas à gauche. En fait, de tels environnements sont la norme et largement étudiés. Mon exemple est en fait un environnement "jouet" aussi connu: gym.openai.com/envs/FrozenLake-v0

— AD

donc l'état et l'action sur lui conduisent à une dist dist sur . j'ai bien compris?

s

$s$

a

$a$

s^{‘}

$s^`$

— MiloMinderbinder

Oui, tout comme est stochastique, est également stochastique.

p (a ∣ s)

$p(a\mid s)$

p (s^{'} ∣ s, a)

$p(s' \mid s, a)$

— AD

juste deux autres choses: 1. n'est stochastique que dans la politique stochastique, n'est-ce pas? 2. Pouvez-vous confirmer que l'autre réponse affichée est erronée quant à ce que l'attente est prise en compte pour que je puisse accepter votre réponse?

p (a | s)

$p(a|s)$

— MiloMinderbinder

La politique peut être stochastique ou déterministe. L'attente est supérieure aux exemples de formation compte tenu des conditions. La fonction de valeur est une estimation du rendement, c'est pourquoi c'est une attente.

— Neil G
source