Domaine de l'apprentissage automatique concerné par la manière dont les agents logiciels doivent agir dans un environnement afin de maximiser une certaine notion de récompense cumulative.
Il me semble que la fonction VVV peut être facilement exprimée par la fonction QQQ et donc la fonction VVV me semble superflue. Cependant, je suis nouveau dans l'apprentissage par renforcement, donc je suppose que je me suis trompé. Définitions L'apprentissage Q et V s'inscrit dans le contexte des processus …
J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …
Je lisais un résumé de haut niveau sur AlphaGo de Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), et je suis tombé sur les termes "politique réseau "et" réseau de valeur ". À un niveau élevé, je comprends que le réseau de stratégies est utilisé pour suggérer des mouvements et que le réseau de …
Apparemment, dans l'apprentissage par renforcement, la méthode de la différence temporelle (TD) est une méthode d'amorçage. En revanche, les méthodes Monte Carlo ne sont pas des méthodes d'amorçage. En quoi consiste exactement l'amorçage dans RL? Qu'est-ce qu'une méthode d'amorçage en RL?
J'ai lu DeepMind Atari Google document et je suis en train de comprendre le concept de « replay expérience ». La relecture d'expérience apparaît dans de nombreux autres articles d'apprentissage par renforcement (en particulier, le papier AlphaGo), donc je veux comprendre comment cela fonctionne. Voici quelques extraits. Premièrement, nous avons …
Je ne suis pas un spécialiste du sujet, et ma question est probablement très naïve. Il découle d'un essai pour comprendre les pouvoirs et les limites de l'apprentissage par renforcement tel qu'il est utilisé dans le programme AlphaGo. Le programme AlphaGo a été construit en utilisant, entre autres (exploration Monte-Carlo …
Je construis une voiture autonome télécommandée pour le plaisir. J'utilise un Raspberry Pi comme ordinateur de bord; et j'utilise divers plug-ins, tels qu'un appareil photo Raspberry Pi et des capteurs de distance, pour obtenir des informations sur l'environnement de la voiture. J'utilise OpenCV pour transformer les images vidéo en tenseurs, …
Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …
J'ai déjà une implémentation fonctionnelle pour un seul agent travaillant sur un problème de tarification dynamique dans le but de maximiser les revenus. Le problème avec lequel je travaille, cependant, implique plusieurs produits différents qui se remplacent les uns les autres, donc leur tarification dynamique avec des apprenants indépendants semble …
J'ai développé un programme d'échecs qui utilise un algorithme d'élagage alpha-bêta et une fonction d'évaluation qui évalue les positions en utilisant les caractéristiques suivantes à savoir le matériel, la sécurité du roi, la mobilité, la structure du pion et les pièces piégées, etc. ... Ma fonction d'évaluation est dérivé de …
Je ne peux pas comprendre l'objectif des poids d'échantillonnage d'importance (IS) dans la lecture prioritaire (page 5) . Une transition est plus susceptible d'être échantillonnée à partir de l'expérience rejouée plus son «coût» est élevé. Ma compréhension est que «IS» aide à abandonner en douceur l'utilisation de la relecture prioritaire …
J'essaie de comprendre l'apprentissage par renforcement depuis un certain temps, mais je ne suis pas en mesure de visualiser comment écrire un programme d'apprentissage par renforcement pour résoudre un problème de grille. Pouvez-vous me suggérer des manuels qui pourraient m'aider à construire une conception claire de l'apprentissage par renforcement?
Je suis diplômé du B.Sc. L'un de mes cours était «Introduction à l'apprentissage automatique», et j'ai toujours voulu faire un projet personnel dans ce sujet. J'ai récemment entendu parler de différentes formations à l'IA pour jouer à des jeux tels que Mario, Go, etc. Quelles connaissances dois-je acquérir pour former …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.