Questions marquées «q-learning»





1
Vue d'ensemble des algorithmes d'apprentissage par renforcement
Je recherche actuellement un aperçu des algorithmes d'apprentissage par renforcement et peut-être une classification de ceux-ci. Mais à côté de Sarsa et Q-Learning + Deep Q-Learning, je ne trouve pas vraiment d'algorithmes populaires. Wikipedia me donne un aperçu des différentes méthodes générales d'apprentissage par renforcement, mais il n'y a aucune …


4
Comment interpréter une courbe de survie du modèle de risque de Cox?
Comment interprétez-vous une courbe de survie à partir du modèle de risque proportionnel cox? Dans cet exemple de jouet, supposons que nous ayons un modèle de risque proportionnel cox sur agevariable dans les kidneydonnées et générons la courbe de survie. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Par …

1
Quelle est l'efficacité de Q-learning avec les réseaux de neurones quand il y a une unité de sortie par action?
Contexte: J'utilise l'approximation de la valeur Q du réseau neuronal dans ma tâche d'apprentissage par renforcement. L'approche est exactement la même que celle décrite dans cette question , mais la question elle-même est différente. Dans cette approche, le nombre de sorties est le nombre d'actions que nous pouvons entreprendre. Et …

3
Pourquoi il n'y a pas de probabilité de transition dans Q-Learning (apprentissage par renforcement)?
Dans l'apprentissage par renforcement, notre objectif est d'optimiser la fonction état-valeur ou l'action-valeur, qui sont définies comme suit: Vπs= ∑ p (s′| s,π( s ) ) [ r (s′| s,π( s ) ) + γVπ(s′) ] =Eπ[ r (s′| s,a)+γVπ(s′) |s0= s ]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0= s …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.