Je l' ai lu sur un certain nombre d'algorithmes pour la résolution des problèmes de bandit n armés comme -greedy, softmax et UCB1, mais je vais avoir quelques problèmes de tri par quelle approche est la meilleure pour réduire au minimum le regret.
Existe-t-il un algorithme optimal connu pour résoudre le problème des bandits à n bras? Existe-t-il un choix d'algorithme qui semble fonctionner le mieux dans la pratique?