Questions marquées «reinforcement-learning»

Un ensemble de stratégies dynamiques par lesquelles un algorithme peut apprendre la structure d'un environnement en ligne en prenant de manière adaptative des actions associées à différentes récompenses afin de maximiser les récompenses gagnées.

2
Pourquoi l'algorithme d'itération de politique converge-t-il vers une fonction de politique et de valeur optimale?
Je lisais les notes de cours d' Andrew Ng sur l'apprentissage par renforcement et j'essayais de comprendre pourquoi l'itération des politiques convergeait vers la fonction de valeur optimale et la politique optimale .V∗V∗V^*π∗π∗\pi^* L'itération de la politique de rappel est: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's …

1
Vue d'ensemble des algorithmes d'apprentissage par renforcement
Je recherche actuellement un aperçu des algorithmes d'apprentissage par renforcement et peut-être une classification de ceux-ci. Mais à côté de Sarsa et Q-Learning + Deep Q-Learning, je ne trouve pas vraiment d'algorithmes populaires. Wikipedia me donne un aperçu des différentes méthodes générales d'apprentissage par renforcement, mais il n'y a aucune …


4
Comment interpréter une courbe de survie du modèle de risque de Cox?
Comment interprétez-vous une courbe de survie à partir du modèle de risque proportionnel cox? Dans cet exemple de jouet, supposons que nous ayons un modèle de risque proportionnel cox sur agevariable dans les kidneydonnées et générons la courbe de survie. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Par …

1
Quelle est l'efficacité de Q-learning avec les réseaux de neurones quand il y a une unité de sortie par action?
Contexte: J'utilise l'approximation de la valeur Q du réseau neuronal dans ma tâche d'apprentissage par renforcement. L'approche est exactement la même que celle décrite dans cette question , mais la question elle-même est différente. Dans cette approche, le nombre de sorties est le nombre d'actions que nous pouvons entreprendre. Et …

3
Apprentissage par renforcement sur des données historiques
J'ai travaillé sur l'apprentissage de la politique optimale de communication pour les clients (quelles notifications envoyer, combien envoyer et quand envoyer). J'ai des données historiques des notifications passées envoyées (avec des horodatages) et leurs performances. J'essayais d'appliquer RL à ce problème afin d'apprendre la stratégie optimale. Cependant, une contrainte clé …

5
Pourquoi (et quand) faut-il apprendre la fonction de récompense à partir d'échantillons dans l'apprentissage par renforcement?
Dans l'apprentissage par renforcement, nous avons une fonction de récompense qui informe l'agent de la qualité de ses actions et états actuels. Dans un cadre général, la fonction de récompense est fonction de trois variables: État actuelSSS Action en cours à l'état actuelπ(s)=aπ(s)=a\pi(s) = a Prochain étatS′S′S' Cela ressemble donc …


2
Limite de confiance supérieure dans l'apprentissage automatique
Je suis tombé sur la formule pour obtenir les limites de confiance supérieures sur le problème des bandits armés de k: clnNjenje-----√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} où njenin_i est la quantité d'échantillons que nous avons pour ce bandit particulier et NjeNiN_iest la quantité totale d'échantillons que nous avons de tous les bandits. Le …

2
Une politique est-elle toujours déterministe dans l'apprentissage par renforcement?
Dans l'apprentissage par renforcement, une politique est-elle toujours déterministe ou est-ce une distribution de probabilité sur les actions (à partir desquelles nous échantillonnons)? Si la politique est déterministe, pourquoi pas la fonction valeur, qui est définie à un état donné pour une politique donnée comme suitππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 …

3
Pourquoi il n'y a pas de probabilité de transition dans Q-Learning (apprentissage par renforcement)?
Dans l'apprentissage par renforcement, notre objectif est d'optimiser la fonction état-valeur ou l'action-valeur, qui sont définies comme suit: Vπs= ∑ p (s′| s,π( s ) ) [ r (s′| s,π( s ) ) + γVπ(s′) ] =Eπ[ r (s′| s,a)+γVπ(s′) |s0= s ]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0= s …

3
Trouvez la distribution et passez à la distribution normale
J'ai des données qui décrivent la fréquence à laquelle un événement se produit pendant une heure ("nombre par heure", nph) et la durée des événements ("durée en secondes par heure", dph). Ce sont les données d'origine: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.