Limite de confiance supérieure dans l'apprentissage automatique

8

Je suis tombé sur la formule pour obtenir les limites de confiance supérieures sur le problème des bandits armés de k:

$c \sqrt{\frac{ln N_{i}}{n_{i}}}$ $c\sqrt{\frac{\text{ln} N_i}{n_i}}$

où $n_i$ est la quantité d'échantillons que nous avons pour ce bandit particulier et $N_i$ est la quantité totale d'échantillons que nous avons de tous les bandits. Le même algorithme est également utilisé dans Monte Carlo Tree Search pour obtenir la borne de confiance supérieure.

Je comprends très clairement ce qu'est une limite de confiance supérieure, mais ce que je ne comprends pas, c'est d'où vient cette formule. J'ai essayé de chercher en ligne à plusieurs endroits, mais je n'ai pas pu trouver d'explication claire sur la façon dont cette formule est dérivée. Quelqu'un peut-il expliquer d'où vient cette formule? Veuillez supposer que je n'ai pas une grande expérience en statistiques.

— programmeur d'échecs
source

J'ai personnellement trouvé que banditalgs.com/2016/09/18/the-upper-confidence-bound-algorithm contenait une bonne explication. Cela inclut quelques calculs lourds, mais il est possible d'avoir une bonne compréhension même en sautant certaines des équations les plus lourdes à mon avis. Il suffit de lire l'intuition et certaines des équations les plus simples

— Dennis Soemers

5

Ce que vous avez là-bas est communément appelé le terme d'exploration. La limite de confiance supérieure est la moyenne empirique plus ce terme d'exploration.

Examinons chaque terme séparément:

$c$ est une constante qui permet à l'utilisateur de définir le compromis d'exploration / exploitation. Pour les résultats théoriques, il est souvent optimisé pour le problème en question (par exemple, les bandits armés de k avec des antérieurs gaussiens).

$\sqrt{1/n_i}$ est proportionnelle à l'écart type postérieur après $n_i$ exemples d'action $i$ . Essentiellement, cela signifie que lorsque vous tirez un bras plus souvent, le bras est moins connu.

$\sqrt{ln(N_i)}$ garantit que vous n'arrêtez pas d'explorer trop tôt. Comme $N_i$ devient très grand, les variances d'échantillon deviennent suffisamment petites pour que nous ayons besoin de compenser pour nous assurer que nous n'arrêtons jamais complètement d'explorer. La plupart des calculs techniques consistent à montrer que $\sqrt{ln(N_i)}$ est juste assez (mais pas trop) de compensation.

Pour une description plus technique, l'article d' Auer et al. est un bon point de départ.

— combo
source

le lien à la fin ne fonctionne pas pour moi.

— chessprogrammer

Devrait fonctionner maintenant, désolé pour cela

— combo

2

Elle provient de l'inégalité de Hoeffding, qui fournit une limite supérieure sur la probabilité que la somme des variables aléatoires indépendantes bornées s'écarte de sa valeur attendue de plus d'un certain montant. Voir https://en.wikipedia.org/wiki/Hoeffding%27s_inequality pour plus d'informations sur l'inégalité de Hoeffding. Voir le texte autour de l'équation (3) dans le document UCT original pour une discussion détaillée concernant ceci à UCB1 dans le réglage de bandit http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.102.1296

— Faucon
source

Limite de confiance supérieure dans l'apprentissage automatique

clnNjenje-----√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}}

$c \sqrt{\frac{ln N_{i}}{n_{i}}}$ $c\sqrt{\frac{\text{ln} N_i}{n_i}}$