Pour les questions liées à l'apprentissage contrôlé par un renforcement positif externe ou un signal de rétroaction négatif ou les deux, où l'apprentissage et l'utilisation de ce qui a été appris jusqu'à présent se produisent simultanément.
En mathématiques, l' opérateur de mot peut faire référence à plusieurs concepts distincts mais liés. Un opérateur peut être défini comme une fonction entre deux espaces vectoriels, il peut être défini comme une fonction où le domaine et le domaine de codage sont identiques, ou il peut être défini comme …
En robotique, la technique d'apprentissage par renforcement est utilisée pour trouver le modèle de contrôle d'un robot. Malheureusement, la plupart des méthodes de gradient politique sont biaisées statistiquement, ce qui pourrait mettre le robot dans une situation dangereuse, voir page 2 dans Jan Peters et Stefan Schaal: Renforcement de l'apprentissage …
J'ai inventé un jeu de société aux échecs. J'ai construit un moteur pour qu'il puisse jouer de manière autonome. Le moteur est essentiellement un arbre de décision. Il est composé de: Une fonction de recherche qui à chaque nœud trouve tous les mouvements légaux possibles Une fonction d'évaluation qui attribue …
Au meilleur de ma compréhension, l'algorithme de recherche d'arbre Monte Carlo (MCTS) est une alternative à minimax pour rechercher un arbre de nœuds. Cela fonctionne en choisissant un coup (généralement, celui qui a le plus de chances d'être le meilleur), puis en effectuant une lecture aléatoire lors du coup pour …
Je connais l'apprentissage supervisé et non supervisé. J'ai suivi le cours SaaS dispensé par Andrew Ng sur Coursera.org. Je recherche quelque chose de similaire pour l'apprentissage par renforcement. Pouvez-vous recommander quelque chose?
L'univers d'OpenAI utilise des algorithmes RL et j'ai entendu parler de certains projets de formation de jeu utilisant l'apprentissage Q, mais y en a-t-il d'autres qui sont utilisés pour maîtriser / gagner des jeux? Les algorithmes génétiques peuvent-ils être utilisés pour gagner lors d'un match?
La plupart des introductions dans le domaine des MDP et de l'apprentissage par renforcement se concentrent exclusivement sur des domaines où l'espace et les variables d'action sont des entiers (et finis). De cette façon, nous sommes rapidement initiés à l'itération de la valeur, au Q-Learning, etc. Cependant, les applications les …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.