Dans l'apprentissage par renforcement, notre objectif est d'optimiser la fonction état-valeur ou l'action-valeur, qui sont définies comme suit:
Cependant, lorsque nous utilisons la méthode Q-learning pour obtenir la stratégie optimale, la méthode de mise à jour est la suivante:
Ma question est:
pourquoi en Q-learning il n'y a pas de probabilité de transition . Est-ce que cela signifie que nous n'en avons pas besoin lors de la modélisation de MDP?