Au meilleur de ma compréhension, l'algorithme de recherche d'arbre Monte Carlo (MCTS) est une alternative à minimax pour rechercher un arbre de nœuds. Cela fonctionne en choisissant un coup (généralement, celui qui a le plus de chances d'être le meilleur), puis en effectuant une lecture aléatoire lors du coup pour voir quel est le résultat. Ce processus se poursuit pendant le temps alloué.
Cela ne ressemble pas à l'apprentissage automatique, mais plutôt à un moyen de parcourir un arbre. Cependant, j'ai entendu dire qu'AlphaZero utilise des SCTM, donc je suis confus. Si AlphaZero utilise MCTS, alors pourquoi AlphaZero apprend? Ou AlphaZero a-t-il fait une sorte d'apprentissage automatique avant de jouer des matchs, puis utilisé l'intuition acquise grâce à l'apprentissage automatique pour savoir quels mouvements passer plus de temps à jouer avec les SCTM?