Il existe certainement un moyen d'introduire ce que beaucoup appellent l'apprentissage renforcé dans les applications Web, mobiles et de poste de travail réelles.
Les organisations militaires le font, l'industrie du cinéma le fait, les entreprises centrées sur le logiciel le font, et je l'ai fait pour les entreprises du Fortune 500 et les petites entreprises. Il existe des composants d'apprentissage adaptatif dans toutes sortes de composants système intégrés dans des systèmes plus grands, allant des robots de reconnaissance faciale de FaceBook aux systèmes de reconnaissance de codes postaux USPS en passant par les systèmes de contrôle de vol et de trafic autonomes. Les logiciels de conception assistée par ordinateur (CAO) sont certainement une cible viable.
La base du renforcement
Considérons une série de vecteurs décrivant des événements. Imaginez qu'ils sont divisés en deux sous-séries A et B. Un réseau neuronal (artificiel ou biologique) pourrait être formé en utilisant A.
La formation pourrait être supervisée, ce qui signifie qu'une des dimensions du vecteur est considérée comme l'étiquette et donc la variable dépendante à prévoir de manière optimale. Les autres dimensions deviennent alors les faits ou signaux d'entrée et donc les variables indépendantes à utiliser pour la prédiction. La formation peut être non supervisée à l'aide de l'extraction de fonctionnalités.
Quoi qu'il en soit, lorsqu'il est fourni avec A avant B et devrait fonctionner en production (utilisation réelle) avant l'arrivée de B, l'arrivée tardive de B présente un choix.
- Effacez les poids et les ajustements de méta-paramètres effectués pendant l'entraînement avec A et relancez l'entraînement avec la série concaténée de A et B.
- Poursuivre la formation avec B, auquel cas le réseau serait biaisé avec A et le résultat serait différent du résultat obtenu par la formation avec B puis A.
- Trouvez un moyen de limiter le biais d'avoir d'abord formé avec A tout en évitant la consommation de ressources requise pour le choix n ° 1 ci-dessus.
Le choix n ° 3 est le meilleur choix dans de nombreux cas car il contient les avantages des choix n ° 1 et n ° 2. Mathématiquement, # 3 se fait en facilitant la préemption de ce qui a été appris de la série A d'une manière ou d'une autre. Les poids nets neuronaux et les ajustements des méta-paramètres doivent être susceptibles d'être corrigés, car une nouvelle expérience indique la nécessité de le faire. Une approche naïve peut être formulée mathématiquement la fonction exponentielle inverse, qui modélise la décroissance naturelle dans de nombreux phénomènes en physique, chimie et sciences sociales.
P = e -nt , où P est la probabilité que le fait soit toujours efficace, n est le taux de décroissance des informations acquises par le passé, et t est une certaine mesure de la progression, comme l'horodatage, le numéro de sous-séquence (lot), numéro de séquence de faits ou numéro d'événement.
Dans le cas des sous-séries A et B, lorsque la formule ci-dessus est implémentée d'une manière ou d'une autre dans le mécanisme d'apprentissage, la formation de A placera moins de biais sur le résultat final après la formation continue en utilisant B car le t pour A est moins que le t pour B, indiquant au mécanisme que B est plus probablement pertinent.
Si nous divisons récursivement A et B en deux, créant des sous-séries de plus en plus granulaires, l'idée ci-dessus de laisser les informations précédentes se désintégrer progressivement reste à la fois valable et valable. Le biais du réseau vers les premières informations utilisées pour la formation est l'équivalent des concepts psychologiques d'étroitesse d'esprit. Les systèmes d'apprentissage qui ont évolué dans le cerveau des mammifères semblent oublier ou se désintéresser des choses passées pour encourager l'ouverture d'esprit, ce qui n'est rien de plus que de laisser le nouvel apprentissage préempter parfois l'apprentissage précédent si les nouvelles informations contiennent des schémas d'apprentissage plus solides.
Il y a DEUX raisons pour lesquelles les données d'exemple plus récentes l'emportent progressivement sur les données d'exemple plus anciennes.
- La suppression ci-dessus du biais de l'apprentissage antérieur pour évaluer adéquatement les événements plus récents dans un apprentissage ultérieur est logique si tous les événements vécus (entraînés) représentent des faits raisonnables sur le monde extérieur que le système tente d'apprendre.
- Le monde extérieur peut être en train de changer et les apprentissages plus anciens peuvent en fait devenir hors de propos ou même trompeurs.
Cette nécessité de laisser progressivement diminuer l'importance de l'information préalable à mesure que l'apprentissage se poursuit est l'un des deux aspects majeurs du renforcement. Le deuxième aspect est un ensemble de concepts correctifs construits sur l'idée de signalisation de rétroaction.
Rétroaction et renforcement
Un signal de rétroaction dans l'apprentissage renforcé est l'apprentissage automatique équivalent à des concepts psychologiques familiers comme la douleur, le plaisir, le contentement et le bien-être. Le système d'apprentissage reçoit des informations pour guider la formation au-delà de l'objectif d'extraction des caractéristiques, d'indépendance des groupements ou de recherche d'une matrice de poids net neuronal qui se rapproche de la relation entre les caractéristiques des événements d'entrée et leurs étiquettes.
Les informations fournies peuvent provenir en interne d'une reconnaissance de formes préprogrammée ou en externe d'une récompense et d'une punition, comme c'est le cas pour les mammifères. Les techniques et algorithmes développés en apprentissage automatique renforcé utilisent fréquemment ces signaux supplémentaires (en utilisant le découpage temporel dans le traitement) ou en utilisant en continu l'indépendance des unités de traitement des architectures de traitement parallèles.
Ce travail a été lancé au MIT par Norbert Wiener et présenté dans son livre Cybernetics (MIT Press 1948). Le mot Cybernétique vient d'un mot plus ancien qui signifie pilotage de navires . Le mouvement automatique d'un gouvernail pour maintenir le cap a peut-être été le premier système de rétroaction mécanique. Votre moteur de tondeuse à gazon en possède probablement un.
Applications adaptatives et apprentissage
Une adaptation simple en temps réel pour une position de gouvernail ou un accélérateur de tondeuse à gazon n'apprend pas. Une telle adaptation est généralement une forme de contrôle PID linéaire. La technologie d'apprentissage automatique en expansion aujourd'hui englobe l'évaluation et le contrôle de systèmes non linéaires complexes que les mathématiciens appellent chaotiques.
Par chaotique, ils ne signifient pas que les processus décrits sont frénétiques ou désorganisés. Les chaoticiens ont découvert il y a des décennies que de simples équations non linéaires pouvaient conduire à un comportement hautement organisé. Ce qu'ils signifient, c'est que le phénomène est trop sensible aux légères modifications pour trouver un algorithme ou une formule fixe pour les prédire.
La langue est comme ça. La même déclaration dit qu'avec une douzaine d'inflexions vocales différentes peut signifier une douzaine de choses différentes. La phrase anglaise «Vraiment» en est un exemple. Il est probable que les techniques de renforcement permettront aux futures machines de distinguer avec de fortes probabilités de succès les différentes significations de cette affirmation.
Pourquoi les jeux d'abord?
Les jeux ont un ensemble très simple et facilement défini de scénarios possibles. L'un des principaux contributeurs à l'avènement de l'ordinateur, John von Neumann, a fait valoir dans Theory of Games and Economic Behavior , un livre qu'il a co-écrit avec Oskar Morgenstern, que toute planification et prise de décision est en fait un jeu de diverses complexités.
Considérez les jeux comme l'ensemble d'exemples de formation de la collection de cerveaux qui, avec le temps, créeront des systèmes qui peuvent déterminer la signification d'une déclaration comme les personnes instruites peuvent partir de trois sources d'indices.
- Contexte dans une conversation ou un scénario social
- Les inflexions vocales du locuteur
- Les expressions faciales et le langage corporel du locuteur
Au-delà des échecs et du jeu de go
Le long du chemin des jeux aux systèmes linguistiques avec une compréhension précise et des capacités d'écoute plus profondes, il existe plusieurs applications de l'apprentissage renforcé qui sont beaucoup plus importantes pour la terre et l'expérience humaine.
- Systèmes qui apprennent à éteindre ou à atténuer les lumières, les appareils électroménagers, les systèmes numériques, les systèmes de CVC et autres appareils consommateurs d'énergie - L'énergie est peut-être la marchandise la plus influente sur le plan géopolitique de l'histoire humaine en raison de l'épuisement des ressources en combustibles fossiles au fil du temps.)
- Développement de véhicules autonomes - La tendance dangereuse de l'utilisation d'équipements lourds, tels que des avions, des véhicules récréatifs, des camions, des autobus et des semi-remorques par des personnes dans des états d'esprit inconnus sur des routes ouvertes, sera probablement considérée par les futurs comme une folie.
- L'évaluation de la fiabilité de l'information - L'information est partout et plus de 99% est erronée, partiellement ou complètement. Très peu est authentifié par de vraies recherches, soit des études randomisées en double aveugle correctement conçues et interprétées, soit des tests et analyses de laboratoire confirmables.
- Des applications de soins de santé qui permettent de mieux diagnostiquer, d'adapter les remèdes à l'individu et d'aider à la poursuite des soins pour éviter les récidives.
Ces quatre et bien d'autres sont bien plus importants que l'accumulation de richesses via des échanges automatisés à grande vitesse ou des compétitions de jeux gagnants, deux intérêts d'apprentissage automatique égocentriques qui n'ont qu'un impact sur une ou deux générations de la famille d'une seule personne.
La richesse et la renommée sont ce que l'on appelle en théorie des jeux un jeu à somme nulle . Ils produisent autant de pertes qu'il y a de gains si vous considérez la philosophie de la règle d'or supérieure que les autres et leurs familles sont d'égale importance pour nous.
Logiciel d'apprentissage renforcé pour la CAO (conception assistée par ordinateur)
La conception assistée par ordinateur est le précurseur naturel de la conception informatique (sans l'aide des humains), tout comme les bris antiblocage conduisent naturellement à des véhicules entièrement autonomes.
Considérez la commande: «Créez-moi un porte-savon pour ma douche qui maximise les chances que ma famille puisse saisir le savon du premier coup sans ouvrir les yeux et minimise la difficulté à garder le savon et les surfaces de douche propres. Voici les hauteurs de les membres de ma famille et quelques photos de la douche. " Ensuite, une imprimante 3D sortirait l'appareil, prêt à être connecté, avec les instructions d'installation.
Bien sûr, un tel système de CD (CAD sans le A) devrait être formé à l'entretien ménager, au comportement humain sans vision, aux moyens d'attacher des éléments à la tuile, aux outils et aux capacités d'entretien domestique du consommateur moyen, aux capacités de l'imprimante 3D et plusieurs autres choses.
De tels développements dans l'automatisation de la fabrication commenceraient probablement par un apprentissage renforcé de commandes plus simples telles que «Fixez ces deux pièces à l'aide de fixations produites en masse et des meilleures pratiques». Le programme de CAO sélectionnerait ensuite le matériel parmi les vis, les rivets, les adhésifs et d'autres options, posant peut-être au concepteur des questions sur la température de fonctionnement et les plages de vibrations. Le choix, la position et l'angle seraient ensuite ajoutés à l'ensemble approprié de pièces CAO, de dessins d'assemblage et de nomenclatures.