Meilleur algorithme de bandit?

27

L'algorithme de bandit le plus connu est la borne de confiance supérieure (UCB) qui a popularisé cette classe d'algorithmes. Depuis lors, je suppose qu'il existe désormais de meilleurs algorithmes. Quel est le meilleur algorithme actuel (en termes de performances empiriques ou de limites théoriques)? Cet algorithme est-il optimal dans un certain sens?

— Artem Kaznatcheev
source

25

Un article de NIPS 2011 ("Une évaluation empirique de Thompson Sampling") montre, dans des expériences, que Thompson Sampling bat UCB. UCB est basé sur le choix du levier qui promet la récompense la plus élevée dans des hypothèses optimistes (c'est-à-dire que la variance de votre estimation de la récompense attendue est élevée, donc vous tirez des leviers que vous ne connaissez pas bien). Au lieu de cela, Thompson Sampling est entièrement bayésien: il génère une configuration de bandit (c'est-à-dire un vecteur de récompenses attendues) à partir d'une distribution postérieure, puis agit comme si c'était la vraie configuration (c'est-à-dire qu'il tire le levier avec la récompense attendue la plus élevée).

La règle de contrôle bayésienne (" Un principe d'entropie relative minimale pour l'apprentissage et l'action ", JAIR), une généralisation de l'échantillonnage de Thompson, dérive l'échantillonnage de Thompson des principes théoriques de l'information et de la causalité. En particulier, il est montré que la règle de contrôle bayésienne est la stratégie optimale lorsque vous souhaitez minimiser le KL entre votre stratégie et la stratégie optimale (inconnue) et si vous tenez compte des contraintes causales. La raison pour laquelle cela est important est que cela peut être considéré comme une extension de l'inférence bayésienne aux actions: l'inférence bayésienne peut être montrée comme la stratégie de prédiction optimale lorsque votre critère de performance est le KL entre votre estimateur et la distribution vraie (inconnue).

— Pedro A. Ortega
source

16

L'UCB est en effet presque optimal dans le cas stochastique (jusqu'à un facteur log T pour un jeu de round T), et jusqu'à un écart dans l'inégalité de Pinsker dans un sens plus dépendant du problème. Un article récent d' Audibert et Bubeck supprime cette dépendance au journal dans le pire des cas, mais a une pire limite dans le cas favorable lorsque différentes armes ont des récompenses bien séparées.

En général, UCB est un candidat d'une plus grande famille d'algorithmes. À tout moment du jeu, vous pouvez regarder tous les bras qui ne sont pas "disqualifiés", c'est-à-dire dont la borne de confiance supérieure n'est pas inférieure à la borne de confiance inférieure d'un bras. Le prélèvement basé sur toute distribution d'armes qualifiées constitue une stratégie valable et suscite un regret similaire jusqu'aux constantes.

Empiriquement, je ne pense pas qu'il y ait eu une évaluation significative de nombreuses stratégies différentes, mais je pense que UCB est souvent assez bon.

La plupart des recherches les plus récentes ont porté sur l'extension des problèmes de bandits au-delà du simple cadre armé en K avec des récompenses stochastiques, à de très grands espaces d'action (ou infinis), avec ou sans informations secondaires, et sous rétroaction stochastique ou contradictoire. Il y a également eu des travaux dans des scénarios où les critères de performance sont différents (comme l'identification du meilleur bras uniquement).

4

L'état actuel de la technique pourrait se résumer ainsi:

stochastique: UCB et variantes (regret dans ) $R_T = O(\frac{K \log T}{\Delta})$
contradictoire: EXP3 et variantes (regret dans ) $\tilde{R}_T = O(\sqrt{T K \log K})$
contextuel: c'est compliqué

avec est le nombre de tours, le nombre de bras, la vraie différence entre le meilleur et le deuxième meilleur bras (écart). $T$ $K$ $\Delta$

— oDDsKooL
source