Questions marquées «reinforcement-learning»

Un ensemble de stratégies dynamiques par lesquelles un algorithme peut apprendre la structure d'un environnement en ligne en prenant de manière adaptative des actions associées à différentes récompenses afin de maximiser les récompenses gagnées.

3
Pourquoi y a-t-il toujours au moins une politique meilleure ou égale à toutes les autres politiques?
Apprentissage par renforcement: une introduction. Deuxième édition, en cours ., Richard S. Sutton et Andrew G. Barto (c) 2012, pp. 67-68. Résoudre une tâche d'apprentissage par renforcement signifie, en gros, trouver une politique qui obtient beaucoup de récompenses à long terme. Pour les MDP finis, nous pouvons définir précisément une …

2
Questions sur Q-Learning à l'aide de réseaux de neurones
J'ai implémenté Q-Learning comme décrit dans, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Afin d'env. Q (S, A) J'utilise une structure de réseau neuronal comme la suivante, Sigmoïde d'activation Entrées, nombre d'entrées + 1 pour les neurones d'action (toutes les entrées mises à l'échelle 0-1) Sorties, sortie unique. Q-Value N nombre de M couches cachées. Méthode …

1
GAM vs LOESS vs splines
Contexte : Je veux tracer une ligne dans un nuage de points qui n'apparaît pas paramétrique, donc j'utilise geom_smooth()in ggplotin R. Il retourne automatiquement geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change …


1
Pourquoi l'apprentissage par renforcement profond est-il instable?
Dans l'article de DeepMind de 2015 sur l'apprentissage par renforcement profond, il déclare que «les tentatives précédentes de combiner RL avec des réseaux de neurones ont échoué en grande partie en raison d'un apprentissage instable». L'article énumère ensuite certaines causes de cela, en fonction des corrélations entre les observations. S'il …










1
Un modèle de P (Y | X) peut-il être formé par descente de gradient stochastique à partir d'échantillons non iid de P (X) et d'iid échantillons de P (Y | X)?
Lors de la formation d'un modèle paramétré (par exemple pour maximiser la probabilité) par descente de gradient stochastique sur certains ensembles de données, il est communément supposé que les échantillons d'apprentissage sont tirés de la distribution des données d'apprentissage. Donc, si l'objectif est de modéliser une distribution conjointe , alors …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.