J'essaie de comprendre l'apprentissage par renforcement et les processus de décision markoviens (MDP) dans le cas où un réseau neuronal est utilisé comme approximateur de fonction.
J'ai des difficultés avec la relation entre le MDP où l'environnement est exploré de manière probabiliste, comment cela correspond aux paramètres d'apprentissage et comment la solution / les politiques finales sont trouvées.
Ai-je raison de supposer que dans le cas de l'apprentissage Q, le réseau neuronal agit essentiellement comme un approximateur de fonction pour la valeur q elle-même tant d'étapes à l'avenir? Comment cette correspondance avec la mise à jour des paramètres via la rétropropagation ou d'autres méthodes?
De plus, une fois que le réseau a appris à prédire la future récompense, comment cela s'inscrit-il dans le système en termes de prise de décision? Je suppose que le système final ne ferait pas de transition probabiliste entre les états.
Merci