MCTS / UCT est une méthode de recherche d'arbre de jeu qui utilise un algorithme de bandit pour sélectionner les nœuds prometteurs à explorer. Les jeux sont joués de manière aléatoire et les nœuds menant à plus de victoires sont explorés plus en profondeur. L'algorithme de bandit maintient un équilibre entre l'exploration des nœuds avec des taux de gain élevés et l'exploration des nœuds inconnus (et dans sa forme pure n'utilise pas nécessairement une fonction d'évaluation heuristique). Les programmes basés sur cette technique générale ont obtenu des résultats assez étonnants dans Computer Go .
Des recherches de monte-carlo menées par des bandits ont-elles été appliquées à d'autres problèmes de recherche? Par exemple, serait-ce une approche utile pour approximer des solutions à MAX-SAT, BKP ou à d'autres problèmes d'optimisation combinatoire? Existe-t-il des caractéristiques particulières d'un problème (structurel / statistique / etc.) qui suggéreraient si une approche de type bandit serait efficace?
Existe-t-il des problèmes déterministes connus qui seraient totalement résistants aux méthodes de bandit, en raison de la nature de l'espace de solution?