La recherche d'arbres de Monte-Carlo peut-elle être considérée comme un apprentissage automatique?


9

Au meilleur de ma compréhension, l'algorithme de recherche d'arbre Monte Carlo (MCTS) est une alternative à minimax pour rechercher un arbre de nœuds. Cela fonctionne en choisissant un coup (généralement, celui qui a le plus de chances d'être le meilleur), puis en effectuant une lecture aléatoire lors du coup pour voir quel est le résultat. Ce processus se poursuit pendant le temps alloué.

Cela ne ressemble pas à l'apprentissage automatique, mais plutôt à un moyen de parcourir un arbre. Cependant, j'ai entendu dire qu'AlphaZero utilise des SCTM, donc je suis confus. Si AlphaZero utilise MCTS, alors pourquoi AlphaZero apprend? Ou AlphaZero a-t-il fait une sorte d'apprentissage automatique avant de jouer des matchs, puis utilisé l'intuition acquise grâce à l'apprentissage automatique pour savoir quels mouvements passer plus de temps à jouer avec les SCTM?

Réponses:


6

Monte Carlo Tree Search n'est généralement pas considéré comme une technique d'apprentissage automatique, mais comme une technique de recherche. Il y a des parallèles (les SCTM essaient d'apprendre des modèles généraux à partir des données, dans un sens, mais les modèles ne sont pas très généraux), mais en réalité, les SCTM ne sont pas un algorithme approprié pour la plupart des problèmes d'apprentissage.

AlphaZero était une combinaison de plusieurs algorithmes. L'un était MCTS, mais MCTS a besoin d'une fonction pour lui dire à quel point les différents états du jeu peuvent être bons (ou bien, il doit simuler des jeux entiers). Une façon de gérer cette fonction dans un jeu comme les échecs ou Go est de l'approcher en formant un réseau de neurones, ce que les chercheurs de Deep Mind ont fait. Il s'agit du composant d'apprentissage d'AlphaZero.


6

La réponse de John est correcte dans la mesure où les SCTM ne sont traditionnellement pas considérés comme une approche d'apprentissage automatique, mais comme un algorithme de recherche d'arbre, et qu'AlphaZero combine cela avec des techniques d'apprentissage automatique (réseaux neuronaux profonds et apprentissage par renforcement).

Cependant, il existe des similitudes intéressantes entre les SCTM eux-mêmes et l'apprentissage automatique. Dans un certain sens, les SCTM tentent «d'apprendre» la valeur des nœuds à partir de l'expérience générée par ces nœuds. Ceci est très similaire au fonctionnement de l'apprentissage par renforcement (RL) (qui lui-même est généralement décrit comme un sous-ensemble de l'apprentissage automatique).

Certains chercheurs ont également expérimenté des remplacements pour la phase de rétropropagation traditionnelle des SCTM (qui, d'un point de vue RL, peut être décrite comme mettant en œuvre des sauvegardes Monte-Carlo) basées sur d'autres méthodes RL (par exemple, les sauvegardes de différence temporelle) . Un article complet décrivant ces sortes de similitudes entre les SCTM et le RL est: On Monte Carlo Tree Search and Reinforcement Learning .

Notez également que la phase de sélection des SCTM est généralement traitée comme une séquence de petits problèmes de bandit multi-armé, et ces problèmes ont également des liens solides avec RL.


TL; DR : les SCTM ne sont normalement pas considérés comme une technique d'apprentissage automatique, mais si vous l'inspectez de près, vous pouvez trouver de nombreuses similitudes avec ML (en particulier, l'apprentissage par renforcement).


1

Bienvenue dans le champ de mines des définitions sémantiques de l'IA! Selon l'Encyclopedia Britannica ML, il s'agit d'une «discipline soucieuse de la mise en œuvre de logiciels informatiques capables d'apprendre de manière autonome». Il existe un tas d'autres définitions du BC, mais généralement elles sont toutes si vagues, disant quelque chose sur «l'apprentissage», «l'expérience», «l'autonomie», etc. dans un ordre variable. Il n'y a pas de définition de référence bien connue que la plupart des gens utilisent, donc à moins que l'on veuille en proposer une, tout ce que l'on publie à ce sujet doit être soutenu par des références.

Selon la définition de l'Encyclopedia Britannica, les raisons d'appeler les SCTM dans ML sont assez solides (Chaslot, les travaux de Coulom et al. De 2006-2008 sont utilisés comme référence pour les SCTM). Il y a deux politiques utilisées dans les SCTM, une politique d'arborescence et une politique de simulation. Au moment de la décision, la stratégie d'arbre met à jour les valeurs d'action en développant la structure d'arbre et en sauvegardant les valeurs de tout ce qu'elle trouve dans la recherche. Il n'y a pas de codage en dur sur lequel les nœuds doivent être sélectionnés / développés; tout cela vient de maximiser les récompenses des statistiques. Les nœuds les plus proches de la racine apparaissent de plus en plus intelligents lorsqu'ils «apprennent» à imiter les distributions / états et / ou les valeurs d'action à partir des valeurs correspondantes de la réalité. Que cela puisse être appelé «autonome» est une question tout aussi difficile, car en fin de compte, ce sont les humains qui ont écrit les formules / théorie utilisées par les SCTM.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.