Statistiques et Big Data q-learning

4

Pourquoi Q-Learning utilise epsilon-greedy pendant les tests?

Dans l'article de DeepMind sur Deep Q-Learning pour les jeux vidéo Atari ( ici ), ils utilisent une méthode epsilon-greedy pour l'exploration pendant la formation. Cela signifie que lorsqu'une action est sélectionnée pendant l'entraînement, elle est choisie soit comme action avec la valeur q la plus élevée, soit comme action …

18 machine-learning reinforcement-learning q-learning deep-rl

2

Pourquoi la lettre Q a-t-elle été choisie dans Q-learning?

Pourquoi la lettre Q a été choisie au nom de Q-learning? La plupart des lettres sont choisies comme abréviation, comme pour politique et v pour valeur. Mais je ne pense pas que Q soit l'abréviation d'un mot.ππ\pivvv

17 terminology reinforcement-learning history q-learning

1

Quelle est la différence entre l'épisode et l'époque dans l'apprentissage Q profond?

J'essaie de comprendre le célèbre article "Jouer à Atari avec l'apprentissage par renforcement profond" ( pdf ). Je ne suis pas clair sur la différence entre une époque et un épisode . Dans l'algorithme , la boucle externe est sur des épisodes , tandis que sur la figure l'axe des …

14 neural-networks terminology reinforcement-learning q-learning

2

Comment calculer exactement la fonction de perte Deep Q-Learning?

J'ai un doute sur la formation exacte de la fonction de perte d'un réseau Deep Q-Learning. J'utilise un réseau feedforward à 2 couches avec une couche de sortie linéaire et des couches cachées relu. Supposons que j'ai 4 actions possibles. Ainsi, la sortie de mon réseau pour l'état actuelststs_t est …

11 least-squares deep-learning loss-functions reinforcement-learning q-learning

1

Vue d'ensemble des algorithmes d'apprentissage par renforcement

Je recherche actuellement un aperçu des algorithmes d'apprentissage par renforcement et peut-être une classification de ceux-ci. Mais à côté de Sarsa et Q-Learning + Deep Q-Learning, je ne trouve pas vraiment d'algorithmes populaires. Wikipedia me donne un aperçu des différentes méthodes générales d'apprentissage par renforcement, mais il n'y a aucune …

9 reinforcement-learning q-learning

2

Apprentissage par renforcement dans un environnement non stationnaire [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Vous souhaitez améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 8 jours . Q1: Existe-t-il des méthodes communes …

9 markov-process reinforcement-learning stationarity q-learning

4

Comment interpréter une courbe de survie du modèle de risque de Cox?

Comment interprétez-vous une courbe de survie à partir du modèle de risque proportionnel cox? Dans cet exemple de jouet, supposons que nous ayons un modèle de risque proportionnel cox sur agevariable dans les kidneydonnées et générons la courbe de survie. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Par …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

Quelle est l'efficacité de Q-learning avec les réseaux de neurones quand il y a une unité de sortie par action?

Contexte: J'utilise l'approximation de la valeur Q du réseau neuronal dans ma tâche d'apprentissage par renforcement. L'approche est exactement la même que celle décrite dans cette question , mais la question elle-même est différente. Dans cette approche, le nombre de sorties est le nombre d'actions que nous pouvons entreprendre. Et …

9 machine-learning neural-networks reinforcement-learning q-learning

3

Pourquoi il n'y a pas de probabilité de transition dans Q-Learning (apprentissage par renforcement)?

Dans l'apprentissage par renforcement, notre objectif est d'optimiser la fonction état-valeur ou l'action-valeur, qui sont définies comme suit: Vπs= ∑ p (s′| s,π( s ) ) [ r (s′| s,π( s ) ) + γVπ(s′) ] =Eπ[ r (s′| s,a)+γVπ(s′) |s0= s ]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0= s …

8 reinforcement-learning q-learning

Questions marquées «q-learning»