Dans l'apprentissage par renforcement, une politique est-elle toujours déterministe ou est-ce une distribution de probabilité sur les actions (à partir desquelles nous échantillonnons)? Si la politique est déterministe, pourquoi pas la fonction valeur, qui est définie à un état donné pour une politique donnée comme suit
une sortie ponctuelle?
Dans la définition ci-dessus, nous prenons une attente. Quelle est cette attente terminée?
Une politique peut-elle conduire à des itinéraires différents?