Existe-t-il des applications d'apprentissage par renforcement autres que les jeux?


13

Existe-t-il un moyen d'enseigner l'apprentissage par renforcement dans des applications autres que les jeux?

Les seuls exemples que je peux trouver sur Internet sont des agents de jeu. Je comprends que VNC contrôle l'entrée des jeux via le réseau de renforcement. Est-il possible de configurer cela avec, disons, un logiciel de CAO?


3
Oui, c'est possible, mais la vraie question devrait être de savoir s'il est plus efficace que d'autres algorithmes ou non. Si vous avez un objectif spécifique, vous pouvez le penser et le modéliser comme un jeu (même la vie est un jeu;)). En fait, de nombreuses IA réussies profitent de plus d'une technique. Jetez un œil à celle-ci: datascience.stackexchange.com/questions/11126/…
TasosGlrs

2
Le point à propos d'AlphaGo est qu'un certain type de jeu (informations non triviales , non aléatoires et parfaites) fournit en particulier un excellent terrain d'essai pour l'IA car ces jeux ont des paramètres très simples, mais une complexité proche de la nature. Les jeux, d'un certain point de vue, sont les types d'artefacts les plus utiles car ils enseignent la pensée abstraite et stratégique. Pour comprendre l'importance des jeux, examinez l' impact de la théorie des jeux sur l'informatique .
DukeZhou

Cela peut être dû aux NDA. Les meilleures applications d'apprentissage sont propriétaires, tout comme le meilleur logiciel de tour cellulaire ou la meilleure reconnaissance vocale ou les meilleurs centres commerciaux en ligne. C'est l'ingénierie en général.
FauChristian

Droite. Si tout ce que l'on a c'est la théorie des jeux, le monde devient un jeu.
FelicityC

Réponses:


2

Un des exemples intéressants d'apprentissage par renforcement est un hélicoptère volant autonome. J'ai eu la chance d'apprendre certaines des choses faites par Andrew Ng et d'autres récemment. Voici l'article de recherche papier . Il existe également d'autres articles similaires. Vous pouvez les rechercher sur Google si vous souhaitez en savoir plus.

Vous pouvez également le voir en action dans cette vidéo youtube .

Voici apparemment une autre application complètement différente en finance.


2

Vous verrez de nombreux exemples de jeux dans la littérature d'apprentissage par renforcement, car les environnements de jeux peuvent souvent être codés efficacement et s'exécuter rapidement sur un seul ordinateur qui peut ensuite contenir l'environnement et l'agent. Pour les jeux classiques, tels que le backgammon, les dames, les échecs, allez, alors il y a des experts humains avec lesquels nous pouvons comparer les résultats. Certains jeux ou environnements de jeu simplifiés sont couramment utilisés pour comparer différentes approches, tout comme les chiffres manuscrits du MNIST sont utilisés pour comparer des approches d'apprentissage supervisé.

Existe-t-il un moyen d'enseigner l'apprentissage par renforcement dans des applications autres que les jeux?

Oui. De manière informelle, vous pouvez appliquer des approches d'apprentissage par renforcement chaque fois que vous pouvez définir un problème en tant qu'agent agissant dans un environnement où il peut être informé de l'état et d'une valeur de récompense influençant les objectifs. Plus formellement, la théorie de l'apprentissage par renforcement est basée sur des solutions aux processus de décision de Markov.Par conséquent, si vous pouvez adapter votre description de problème à un MDP, les différentes techniques utilisées en RL - telles que l'apprentissage Q, SARSA, REINFORCE - peuvent être appliquées. Cet ajustement à la théorie n'a pas besoin d'être parfait pour que le système résultant fonctionne, par exemple, vous pouvez souvent traiter un état inconnu ou imparfaitement observé comme étant effectivement aléatoire pour l'agent, et considérer cette partie d'un environnement stochastique.

Voici quelques exemples d'utilisations possibles de l'apprentissage par renforcement en dehors des jeux récréatifs:

  • Logique de contrôle pour robot motorisé, comme apprendre à retourner des crêpes et d'autres exemples . Ici, les mesures d'environnement sont effectuées par des capteurs physiques sur le robot. Les récompenses sont données pour la réalisation d'un objectif, mais peuvent également être ajustées pour la fluidité, l'utilisation économique de l'énergie, etc. L'agent choisit des actions de bas niveau telles que le couple moteur ou la position du relais. En théorie, il peut y avoir des agents imbriqués où ceux de niveau supérieur choisissent les objectifs pour ceux de niveau inférieur - par exemple, le robot peut décider à un niveau élevé entre effectuer l'une des trois tâches qui nécessitent de se déplacer vers des emplacements différents, et à un niveau inférieur peut être décisions sur la façon de contrôler les moteurs pour déplacer le robot vers son objectif choisi.

  • Voitures autonomes. Bien que l'accent soit mis sur l'interprétation des capteurs - voir les marquages ​​routiers, les piétons, etc., un système de contrôle est nécessaire pour sélectionner l'accélérateur, le frein et la direction.

  • Trading financier automatisé. Peut-être un jeu pour certains, il y a des conséquences claires dans le monde réel. Le signal de récompense est assez simple cependant, et RL peut être ajusté pour préférer des gains à long ou à court terme.

est-il possible de configurer cela avec, disons, un logiciel de CAO?

En théorie oui, mais je ne sais pas ce qui pourrait être disponible pour le faire dans la pratique. Vous devez également avoir un ou plusieurs objectifs à l'esprit que vous codez dans l'agent (en tant que valeurs de récompense qu'il peut observer) avant de lui donner une souris virtuelle et de définir une tâche pour dessiner quelque chose. Les jeux informatiques sont livrés avec un système de récompenses intégré comme système de notation et fournissent des commentaires fréquents, de sorte qu'un agent peut acquérir rapidement la connaissance des bonnes et des mauvaises décisions. Vous devrez remplacer ce composant de notation par quelque chose qui représente vos objectifs pour le système basé sur la CAO.

La CAO n'a rien d'intégré approprié, bien que des outils de CAO avec des simulations, tels que divers moteurs physiques ou analyse par éléments finis, pourraient vous permettre de noter des conceptions basées sur une mesure physique simulée. D'autres possibilités incluent l'analyse de la déformation, l'utilisation sans gaspillage de matériau, quelles que soient les mesures que le système CAD / CAM peut fournir pour une conception partielle ou terminée. La partie la plus délicate consiste à contraindre une conception à son but ou à son objectif et à faire en sorte que cela soit récompensé ou à intégrer les contraintes dans l'environnement; donner à un agent RL un contrôle total et sans contrainte du processus de CAO et récompenser la souche la plus faible se traduira probablement par quelque chose de très inintéressant, comme un petit cube.


Beaucoup de choses appropriées: dimensionnement automatique pour une clarté visuelle maximale, recherche d'interférences pour les pièces mobiles sous contrainte (sans FEA), optimisation de la sortie CAM, accélération du rendu en utilisant des informations de profondeur z approximatives, etc., etc.
FauChristian

@FauChristian: Je ne suis pas sûr que tous ceux-ci pourraient être introduits comme un signal de récompense aussi simplement qu'un score de match. L'optimisation d'une conception pour une déformation réduite, par exemple, implique que votre conception a un objectif - vous devez également ajouter des contraintes / règles pour suivre cet objectif, et cela pourrait être plus difficile à moins d'avoir également une analyse ergonomique. Cependant, le commentaire ajoute certaines choses que je pourrais mentionner et ajoutera à la réponse.
Neil Slater

Oui. Vrai. J'essaierai. Veuillez excuser la série de commentaires dont j'aurai besoin. Dans chaque cas ci-dessus, mon objectif sera d'agréger les préoccupations d'un concepteur mécanique en un seul signal de bien-être pouvant guider les itérations, en gardant à l'esprit qu'il peut y avoir plusieurs organes de NN, chacun pouvant être alimenté par une agrégation différente. Mais par souci de simplicité, je vais agréger chaque cas à un scalaire. Pour la plupart d'entre eux, un élément stochastique sera nécessaire, car la plupart des cas en CAD ont plusieurs points critiques dans la surface de la valeur agrégée.
FauChristian

Cotation automatique - w = sqrt (Σ min (s_clear, s_nice)) + k n_jumps, ... où ... w est l'agrégat de qualité de l'état de la cotation du dessin, à partir duquel un signal de rétroaction normalisé peut être dérivé, s_clear est la distance entre une ligne de cotation et l'autre ligne la plus proche, à l'exception des lignes de saut, s_nice est un métaparamètre représentant une belle distance de dégagement entre les lignes pour le type de dessin à coter, k est une constante et n_jumps est le nombre de lignes de saut ( où les lignes se croisent mais l'un des deux a un espace pour indiquer qu'il saute derrière l'autre ligne).
FauChristian

Recherches d'interférences - w = n, ... où ... w est l'agrégat de qualité de la recherche d'interférences et n est le nombre d'interférences trouvées après avoir introduit les suppositions d'itérations dans une simulation dynamique de la supposition. Celui-ci est comme un jeu dans la mesure où plus l'interférence est correcte, plus le score est élevé.
FauChristian

1

Il existe certainement un moyen d'introduire ce que beaucoup appellent l'apprentissage renforcé dans les applications Web, mobiles et de poste de travail réelles.

Les organisations militaires le font, l'industrie du cinéma le fait, les entreprises centrées sur le logiciel le font, et je l'ai fait pour les entreprises du Fortune 500 et les petites entreprises. Il existe des composants d'apprentissage adaptatif dans toutes sortes de composants système intégrés dans des systèmes plus grands, allant des robots de reconnaissance faciale de FaceBook aux systèmes de reconnaissance de codes postaux USPS en passant par les systèmes de contrôle de vol et de trafic autonomes. Les logiciels de conception assistée par ordinateur (CAO) sont certainement une cible viable.

La base du renforcement

Considérons une série de vecteurs décrivant des événements. Imaginez qu'ils sont divisés en deux sous-séries A et B. Un réseau neuronal (artificiel ou biologique) pourrait être formé en utilisant A.

La formation pourrait être supervisée, ce qui signifie qu'une des dimensions du vecteur est considérée comme l'étiquette et donc la variable dépendante à prévoir de manière optimale. Les autres dimensions deviennent alors les faits ou signaux d'entrée et donc les variables indépendantes à utiliser pour la prédiction. La formation peut être non supervisée à l'aide de l'extraction de fonctionnalités.

Quoi qu'il en soit, lorsqu'il est fourni avec A avant B et devrait fonctionner en production (utilisation réelle) avant l'arrivée de B, l'arrivée tardive de B présente un choix.

  1. Effacez les poids et les ajustements de méta-paramètres effectués pendant l'entraînement avec A et relancez l'entraînement avec la série concaténée de A et B.
  2. Poursuivre la formation avec B, auquel cas le réseau serait biaisé avec A et le résultat serait différent du résultat obtenu par la formation avec B puis A.
  3. Trouvez un moyen de limiter le biais d'avoir d'abord formé avec A tout en évitant la consommation de ressources requise pour le choix n ° 1 ci-dessus.

Le choix n ° 3 est le meilleur choix dans de nombreux cas car il contient les avantages des choix n ° 1 et n ° 2. Mathématiquement, # 3 se fait en facilitant la préemption de ce qui a été appris de la série A d'une manière ou d'une autre. Les poids nets neuronaux et les ajustements des méta-paramètres doivent être susceptibles d'être corrigés, car une nouvelle expérience indique la nécessité de le faire. Une approche naïve peut être formulée mathématiquement la fonction exponentielle inverse, qui modélise la décroissance naturelle dans de nombreux phénomènes en physique, chimie et sciences sociales.

P = e -nt , où P est la probabilité que le fait soit toujours efficace, n est le taux de décroissance des informations acquises par le passé, et t est une certaine mesure de la progression, comme l'horodatage, le numéro de sous-séquence (lot), numéro de séquence de faits ou numéro d'événement.

Dans le cas des sous-séries A et B, lorsque la formule ci-dessus est implémentée d'une manière ou d'une autre dans le mécanisme d'apprentissage, la formation de A placera moins de biais sur le résultat final après la formation continue en utilisant B car le t pour A est moins que le t pour B, indiquant au mécanisme que B est plus probablement pertinent.

Si nous divisons récursivement A et B en deux, créant des sous-séries de plus en plus granulaires, l'idée ci-dessus de laisser les informations précédentes se désintégrer progressivement reste à la fois valable et valable. Le biais du réseau vers les premières informations utilisées pour la formation est l'équivalent des concepts psychologiques d'étroitesse d'esprit. Les systèmes d'apprentissage qui ont évolué dans le cerveau des mammifères semblent oublier ou se désintéresser des choses passées pour encourager l'ouverture d'esprit, ce qui n'est rien de plus que de laisser le nouvel apprentissage préempter parfois l'apprentissage précédent si les nouvelles informations contiennent des schémas d'apprentissage plus solides.

Il y a DEUX raisons pour lesquelles les données d'exemple plus récentes l'emportent progressivement sur les données d'exemple plus anciennes.

  • La suppression ci-dessus du biais de l'apprentissage antérieur pour évaluer adéquatement les événements plus récents dans un apprentissage ultérieur est logique si tous les événements vécus (entraînés) représentent des faits raisonnables sur le monde extérieur que le système tente d'apprendre.
  • Le monde extérieur peut être en train de changer et les apprentissages plus anciens peuvent en fait devenir hors de propos ou même trompeurs.

Cette nécessité de laisser progressivement diminuer l'importance de l'information préalable à mesure que l'apprentissage se poursuit est l'un des deux aspects majeurs du renforcement. Le deuxième aspect est un ensemble de concepts correctifs construits sur l'idée de signalisation de rétroaction.

Rétroaction et renforcement

Un signal de rétroaction dans l'apprentissage renforcé est l'apprentissage automatique équivalent à des concepts psychologiques familiers comme la douleur, le plaisir, le contentement et le bien-être. Le système d'apprentissage reçoit des informations pour guider la formation au-delà de l'objectif d'extraction des caractéristiques, d'indépendance des groupements ou de recherche d'une matrice de poids net neuronal qui se rapproche de la relation entre les caractéristiques des événements d'entrée et leurs étiquettes.

Les informations fournies peuvent provenir en interne d'une reconnaissance de formes préprogrammée ou en externe d'une récompense et d'une punition, comme c'est le cas pour les mammifères. Les techniques et algorithmes développés en apprentissage automatique renforcé utilisent fréquemment ces signaux supplémentaires (en utilisant le découpage temporel dans le traitement) ou en utilisant en continu l'indépendance des unités de traitement des architectures de traitement parallèles.

Ce travail a été lancé au MIT par Norbert Wiener et présenté dans son livre Cybernetics (MIT Press 1948). Le mot Cybernétique vient d'un mot plus ancien qui signifie pilotage de navires . Le mouvement automatique d'un gouvernail pour maintenir le cap a peut-être été le premier système de rétroaction mécanique. Votre moteur de tondeuse à gazon en possède probablement un.

Applications adaptatives et apprentissage

Une adaptation simple en temps réel pour une position de gouvernail ou un accélérateur de tondeuse à gazon n'apprend pas. Une telle adaptation est généralement une forme de contrôle PID linéaire. La technologie d'apprentissage automatique en expansion aujourd'hui englobe l'évaluation et le contrôle de systèmes non linéaires complexes que les mathématiciens appellent chaotiques.

Par chaotique, ils ne signifient pas que les processus décrits sont frénétiques ou désorganisés. Les chaoticiens ont découvert il y a des décennies que de simples équations non linéaires pouvaient conduire à un comportement hautement organisé. Ce qu'ils signifient, c'est que le phénomène est trop sensible aux légères modifications pour trouver un algorithme ou une formule fixe pour les prédire.

La langue est comme ça. La même déclaration dit qu'avec une douzaine d'inflexions vocales différentes peut signifier une douzaine de choses différentes. La phrase anglaise «Vraiment» en est un exemple. Il est probable que les techniques de renforcement permettront aux futures machines de distinguer avec de fortes probabilités de succès les différentes significations de cette affirmation.

Pourquoi les jeux d'abord?

Les jeux ont un ensemble très simple et facilement défini de scénarios possibles. L'un des principaux contributeurs à l'avènement de l'ordinateur, John von Neumann, a fait valoir dans Theory of Games and Economic Behavior , un livre qu'il a co-écrit avec Oskar Morgenstern, que toute planification et prise de décision est en fait un jeu de diverses complexités.

Considérez les jeux comme l'ensemble d'exemples de formation de la collection de cerveaux qui, avec le temps, créeront des systèmes qui peuvent déterminer la signification d'une déclaration comme les personnes instruites peuvent partir de trois sources d'indices.

  1. Contexte dans une conversation ou un scénario social
  2. Les inflexions vocales du locuteur
  3. Les expressions faciales et le langage corporel du locuteur

Au-delà des échecs et du jeu de go

Le long du chemin des jeux aux systèmes linguistiques avec une compréhension précise et des capacités d'écoute plus profondes, il existe plusieurs applications de l'apprentissage renforcé qui sont beaucoup plus importantes pour la terre et l'expérience humaine.

  • Systèmes qui apprennent à éteindre ou à atténuer les lumières, les appareils électroménagers, les systèmes numériques, les systèmes de CVC et autres appareils consommateurs d'énergie - L'énergie est peut-être la marchandise la plus influente sur le plan géopolitique de l'histoire humaine en raison de l'épuisement des ressources en combustibles fossiles au fil du temps.)
  • Développement de véhicules autonomes - La tendance dangereuse de l'utilisation d'équipements lourds, tels que des avions, des véhicules récréatifs, des camions, des autobus et des semi-remorques par des personnes dans des états d'esprit inconnus sur des routes ouvertes, sera probablement considérée par les futurs comme une folie.
  • L'évaluation de la fiabilité de l'information - L'information est partout et plus de 99% est erronée, partiellement ou complètement. Très peu est authentifié par de vraies recherches, soit des études randomisées en double aveugle correctement conçues et interprétées, soit des tests et analyses de laboratoire confirmables.
  • Des applications de soins de santé qui permettent de mieux diagnostiquer, d'adapter les remèdes à l'individu et d'aider à la poursuite des soins pour éviter les récidives.

Ces quatre et bien d'autres sont bien plus importants que l'accumulation de richesses via des échanges automatisés à grande vitesse ou des compétitions de jeux gagnants, deux intérêts d'apprentissage automatique égocentriques qui n'ont qu'un impact sur une ou deux générations de la famille d'une seule personne.

La richesse et la renommée sont ce que l'on appelle en théorie des jeux un jeu à somme nulle . Ils produisent autant de pertes qu'il y a de gains si vous considérez la philosophie de la règle d'or supérieure que les autres et leurs familles sont d'égale importance pour nous.

Logiciel d'apprentissage renforcé pour la CAO (conception assistée par ordinateur)

La conception assistée par ordinateur est le précurseur naturel de la conception informatique (sans l'aide des humains), tout comme les bris antiblocage conduisent naturellement à des véhicules entièrement autonomes.

Considérez la commande: «Créez-moi un porte-savon pour ma douche qui maximise les chances que ma famille puisse saisir le savon du premier coup sans ouvrir les yeux et minimise la difficulté à garder le savon et les surfaces de douche propres. Voici les hauteurs de les membres de ma famille et quelques photos de la douche. " Ensuite, une imprimante 3D sortirait l'appareil, prêt à être connecté, avec les instructions d'installation.

Bien sûr, un tel système de CD (CAD sans le A) devrait être formé à l'entretien ménager, au comportement humain sans vision, aux moyens d'attacher des éléments à la tuile, aux outils et aux capacités d'entretien domestique du consommateur moyen, aux capacités de l'imprimante 3D et plusieurs autres choses.

De tels développements dans l'automatisation de la fabrication commenceraient probablement par un apprentissage renforcé de commandes plus simples telles que «Fixez ces deux pièces à l'aide de fixations produites en masse et des meilleures pratiques». Le programme de CAO sélectionnerait ensuite le matériel parmi les vis, les rivets, les adhésifs et d'autres options, posant peut-être au concepteur des questions sur la température de fonctionnement et les plages de vibrations. Le choix, la position et l'angle seraient ensuite ajoutés à l'ensemble approprié de pièces CAO, de dessins d'assemblage et de nomenclatures.


Normalement, je ne ferais pas de commentaire critique sur une réponse aussi bien écrite, mais puisque vous avez demandé une critique: je pense que les sections La base du renforcement , du feedback et du renforcement et Applications et apprentissage adaptatifs, bien qu'intéressantes, pourraient être considérablement réduites, car le La question d'OP implique déjà une certaine connaissance de RL, et vous passez beaucoup de temps à mettre en place cette discussion de fond connexe avant d'aborder la question d'origine.
Neil Slater

Le fait que le PO ait posé la question indique des trous, soit l'état actuel de la recherche, indiquant qu'une personne est nouvelle dans le domaine et pourrait avoir besoin de l'amorce dans les sections précédentes. La dernière section répond plus directement à la question.
FauChristian
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.