Questions marquées «reinforcement-learning»

Un ensemble de stratégies dynamiques par lesquelles un algorithme peut apprendre la structure d'un environnement en ligne en prenant de manière adaptative des actions associées à différentes récompenses afin de maximiser les récompenses gagnées.

5
Quelle est la différence entre l'apprentissage hors politique et l'apprentissage en ligne?
Le site Web sur l' intelligence artificielle définit l'apprentissage hors politique et en ligne comme suit: "Un apprenant hors politique apprend la valeur de la politique optimale indépendamment des actions de l'agent. Q-learning est un apprenant hors politique. Un apprenant en politique découvre la valeur de la politique mise en …


2
Pourquoi n'y a-t-il pas de moteurs d'apprentissage en profondeur pour les échecs, similaires à AlphaGo?
Les ordinateurs peuvent depuis longtemps jouer aux échecs en utilisant une technique de «force brute», en cherchant à une certaine profondeur puis en évaluant la position. Cependant, l'ordinateur AlphaGo n'utilise qu'un ANN pour évaluer les positions (il ne fait aucune recherche en profondeur pour autant que je sache). Est-il possible …


2
Apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement: principes de base du flux de travail
Enseignement supervisé 1) Un humain construit un classificateur basé sur des données d' entrée et de sortie 2) Ce classificateur est formé avec un ensemble de données de formation 3) Ce classificateur est testé avec un ensemble de données de test 4) Déploiement si le résultat est satisfaisant A utiliser …


3
Analyse quotidienne des séries chronologiques
J'essaie de faire une analyse des séries chronologiques et je suis nouveau dans ce domaine. J'ai un décompte quotidien d'un événement de 2006-2009 et je veux y adapter un modèle de série chronologique. Voici les progrès que j'ai réalisés: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) L'intrigue résultante que j'obtiens est: Afin de …


2
Qu'est-ce que l'apprentissage par renforcement récurrent
Je suis récemment tombé sur le mot «apprentissage par renforcement récurrent». Je comprends ce qu'est un «réseau neuronal récurrent» et ce qu'est un «apprentissage par renforcement», mais je n'ai pas trouvé beaucoup d'informations sur ce qu'est un «apprentissage par renforcement récurrent». Quelqu'un peut-il m'expliquer ce qu'est un «apprentissage par renforcement …

1
Quand choisir SARSA vs Q Learning
SARSA et Q Learning sont tous deux des algorithmes d'apprentissage par renforcement qui fonctionnent de manière similaire. La différence la plus frappante est que SARSA est en politique alors que Q Learning est hors politique. Les règles de mise à jour sont les suivantes: Apprentissage Q: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q ( …




1
L'apprentissage supervisé est-il un sous-ensemble de l'apprentissage par renforcement?
Il semble que la définition de l'apprentissage supervisé soit un sous - ensemble de l'apprentissage par renforcement, avec un type particulier de fonction de récompense qui est basée sur des données étiquetées (par opposition à d'autres informations dans l'environnement). Est-ce une représentation exacte?


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.