Je suis tombé sur la formule pour obtenir les limites de confiance supérieures sur le problème des bandits armés de k:
où est la quantité d'échantillons que nous avons pour ce bandit particulier et est la quantité totale d'échantillons que nous avons de tous les bandits. Le même algorithme est également utilisé dans Monte Carlo Tree Search pour obtenir la borne de confiance supérieure.
Je comprends très clairement ce qu'est une limite de confiance supérieure, mais ce que je ne comprends pas, c'est d'où vient cette formule. J'ai essayé de chercher en ligne à plusieurs endroits, mais je n'ai pas pu trouver d'explication claire sur la façon dont cette formule est dérivée. Quelqu'un peut-il expliquer d'où vient cette formule? Veuillez supposer que je n'ai pas une grande expérience en statistiques.