Comment les IA apprennent-elles à agir lorsque l'espace problématique est trop grand


10

J'apprends mieux par l'expérimentation et l'exemple. J'apprends sur les réseaux de neurones et j'ai (ce que je pense) une assez bonne compréhension de la classification et de la régression ainsi que de l'apprentissage supervisé et non supervisé, mais je suis tombé sur quelque chose que je n'arrive pas à comprendre;

Si je voulais entraîner une IA à jouer à un jeu compliqué; Je pense à quelque chose comme un RTS (par exemple, Age of Empires, Empire Earth, etc.). Dans ces types de jeux, il existe généralement un certain nombre d'entités contrôlées par le joueur (unités, bâtiments) chacune avec des capacités différentes. Il semble que le problème de l'IA serait la classification (par exemple, choisir cette unité et cette action), cependant, puisque le nombre d'unités est une variable, comment gérer un problème de classification de cette manière?

La seule chose à laquelle je peux penser est plusieurs réseaux qui font différentes étapes (une pour la stratégie globale, une pour contrôler ce type d'unité, une pour ce type de bâtiment, etc.); mais il semble que je complique le problème.

Existe-t-il un bon exemple d'apprentissage automatique / réseaux de neurones apprenant des jeux complexes (pas spécifiquement RTS, mais plus compliqué le Mario )?



Pourrait être utile vers une réponse: ijcai.org/papers07/Papers/IJCAI07-168.pdf et examen de celui-ci: aigamedev.com/open/review/transfer-learning-rts
Neil Slater

Réponses:


4

C'est une bonne question et de nombreux scientifiques du monde entier posent la même question. Eh bien, tout d'abord, un jeu comme Age of Empires n'est pas considéré comme ayant un très grand espace de solution, il n'y a pas tellement de choses que vous pouvez faire. C'est la même chose dans des jeux comme Mario Bros. Le problème de l'apprentissage dans des jeux faciles comme les jeux Atari a été résolu par les gars de DeepMind (ici le papier ), qui a été acquis par Google. Ils ont utilisé une implémentation de l'apprentissage par renforcement avec Deep Learning.

Revenons à votre question. Un très gros problème est de savoir comment imiter la quantité de décisions qu'un être humain prend chaque jour. Réveillez-vous, prenez le petit déjeuner, prenez une douche, quittez votre maison ... Toutes ces actions nécessitent un très haut niveau d'intelligence et de nombreuses actions pour se développer.

Il y a beaucoup de gens qui travaillent sur ce problème, je suis l'un d'eux. Je ne connais pas la solution mais je peux vous dire de quelle façon je regarde. Je suis les théories de Marvin Minsky, il est l'un des pères de l'IA. Ce livre, The Emotion Machine, donne une très bonne vue du problème. Il a suggéré que la façon de créer une machine qui imite le comportement humain n'est pas en construisant une théorie compacte unifiée de l'intelligence artificielle. Au contraire, il soutient que notre cerveau contient des ressources qui se font concurrence pour satisfaire différents objectifs au même moment. Ils ont appelé cette façon de penser .


1

Grande question. C'est une question de complexité, et l'approche que vous utiliserez dépendra de la complexité du problème. Tout problème que nous essayons de résoudre sera associé à un certain degré de complexité, défini familièrement comme «le nombre de choses qui interagissent ou qui doivent être prises en considération». Dans l'apprentissage supervisé et non supervisé, nous précisons précisément le nombre de choses à considérer.

Par exemple, dans une régression linéaire multiple, nous indiquons à l'algorithme d'apprentissage le nombre de fonctionnalités à prendre en compte lors de l'ajustement d'un modèle (le nombre de colonnes dans votre ensemble d'apprentissage). La même situation vaut pour l'apprentissage non supervisé; un ensemble d'apprentissage bien défini avec un nombre explicite de fonctionnalités est utilisé (dans ce cas sans étiquettes).

Ce à quoi vous êtes confronté est une situation mal adaptée à la classification ou à la régression, car vous ne pouvez pas spécifier précisément le nombre de «choses à considérer». Comme vous le dites, votre espace de problème est extrêmement grand. Une autre façon de penser à cela est en termes de formation nécessaire pour apprendre un modèle; à quel point est-ce difficile d'imaginer à quoi ressemble l'ensemble d'entraînement? Dans votre cas difficile. Que contiendraient exactement les colonnes de mon ensemble?

C'est pourquoi des applications comme les voitures autonomes, Atari et AlphaGo n'utilisent pas de classification ou de régression. Il est impossible de savoir à quoi ressemblerait l'ensemble d'entraînement. Vous pouvez essayer, mais votre modèle ne parviendra pas à faire de fortes prévisions fiables (dans ce cas, se déplace). Combien de choses devez-vous considérer pour construire un modèle de conditions routières?

C'est pourquoi un troisième type d'apprentissage automatique, l'apprentissage par renforcement, existe. Plutôt que d'utiliser un ensemble de formation prédéfini, il utilise des essais et des erreurs. En piquant continuellement son environnement, il peut apprendre une politique qui fonctionne à long terme.

Ainsi, pour les petits espaces à problèmes où nous avons une chance de définir l'ensemble de formation, nous utilisons l'apprentissage automatique supervisé et non supervisé. Pour les grands espaces problématiques où il est difficile de définir l'ensemble de formation, nous utilisons l'apprentissage par renforcement. Bien sûr, vous pouvez également faire des combinaisons intéressantes de toutes les approches ci-dessus, mais cela revient toujours à la complexité.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.