Il existe plusieurs façons d'aborder la résolution des problèmes de jeu. Certains jeux peuvent être résolus par des algorithmes de recherche par exemple. Cela fonctionne bien pour les jeux de cartes et de société jusqu'à un certain niveau de complexité. Par exemple, Deep Blue d'IBM était essentiellement une recherche heuristique rapide pour des mouvements optimaux.
Cependant, l'algorithme d'apprentissage automatique le plus générique pour former un agent à effectuer une tâche de manière optimale est probablement l'apprentissage par renforcement . Techniquement, ce n'est pas un algorithme, mais une famille étendue d'algorithmes connexes qui résolvent tous une formalisation spécifique du problème d'apprentissage.
De manière informelle, l'apprentissage par renforcement (RL) consiste à trouver des solutions optimales aux problèmes définis en termes d' agent qui peut observer l' état d'un environnement , prendre des mesures dans cet environnement et obtenir des récompenses qui sont en quelque sorte liées à l'état et à l'action. Les solveurs RL doivent être conçus pour faire face à des situations où les récompenses sont reçues plus tard que lorsque des actions importantes ont été prises, et cela est généralement réalisé par l'algorithme apprenant une attente interne de récompenses ultérieures associées à des paires d'état et / ou d'état-action.
Voici quelques ressources pour étudier l'apprentissage par renforcement:
Vous constaterez que le sujet lui-même est assez grand car des variantes de plus en plus sophistiquées des algorithmes sont nécessaires car le problème à résoudre devient plus difficile.
Le démarrage de jeux pour étudier l'apprentissage par renforcement peut inclure:
Tik-tac-toe (alias Noughts et croix) - cela peut être résolu facilement en utilisant la recherche, mais cela permet de résoudre un problème de jouet simple en utilisant des techniques de base RL.
Labyrinthes - dans la littérature sur l'apprentissage par renforcement, il existe de nombreux exemples de jeux de type "grille" où un agent se déplace par étapes N, E, S, O sur une petite planche pouvant être remplie de dangers et d'objectifs.
Blackjack (alias 21)
Si vous souhaitez travailler avec des agents pour jouer à des jeux vidéo, vous voudrez également en savoir plus sur les réseaux de neurones et probablement en détail - vous aurez besoin de réseaux de neurones profonds et convolutionnels pour traiter les graphiques d'écran.
OpenAI Universe est une ressource relativement nouvelle pour RL . Ils ont fait beaucoup de travail pour créer des environnements prêts à former des agents, ce qui signifie que vous pouvez vous concentrer sur l'étude des algorithmes d'apprentissage, par opposition à l'effort de configuration de l'environnement.
Concernant votre liste de compétences actuelles: Aucune d'entre elles n'est directement pertinente pour l'apprentissage par renforcement. Toutefois:
Si vous pouvez comprendre les mathématiques et la théorie de votre cours précédent, vous devriez également être en mesure de comprendre la théorie de l'apprentissage par renforcement.
Si vous avez étudié des techniques d'apprentissage en ligne ou supervisées par lots, celles-ci peuvent être utilisées comme composants dans un cadre RL. En règle générale, ils peuvent être utilisés pour approximer une fonction de valeur de l'état du jeu, sur la base des commentaires des succès et des échecs jusqu'à présent.