Bandit multi-armé pour la distribution générale des récompenses

Je travaille sur un problème de bandit à plusieurs bras où nous n'avons aucune information sur la distribution des récompenses.

J'ai trouvé de nombreux articles qui garantissent des bornes de regret pour une distribution avec borne connue, et pour des distributions générales avec support dans [0,1].

Je voudrais savoir s'il existe un moyen de bien performer dans un environnement où la distribution des récompenses n'a aucune garantie quant à son support. J'essaie de calculer une limite de tolérance non paramétrique et d'utiliser ce nombre pour mettre à l'échelle la distribution des récompenses afin que je puisse utiliser l'algorithme 2 spécifié sur ce document ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). Est-ce que quelqu'un pense que cette approche fonctionnera?

Sinon, quelqu'un peut-il me diriger au bon endroit?

Merci beaucoup!

references multiarmed-bandit

— client
source

La recherche sur les algorithmes MAB est étroitement liée aux garanties de performances théoriques. En effet, le regain d'intérêt pour ces algorithmes (rappel que l'échantillonnage de Thompson a été proposé dans les années 30) ne s'est réellement produit que depuis la publication par Auer en 2002 prouvant limites de regret pour les différents UCB et -greedy algorithmes. En tant que tel, il y a peu d'intérêt pour les problèmes où la distribution des récompenses n'a pas de limite connue car il n'y a presque rien qui puisse être dit théoriquement. $\mathcal{O}(\log(T))$ $\epsilon$

Même le simple algorithme d'échantillonnage de Thompson que vous mentionnez nécessite des récompenses distribuées par Bernoulli, et même cela a pris 80 ans pour prouver un regret logarithmique lié!

En pratique, cependant, dans les cas où vous ne connaissez pas la distribution des récompenses pour certains, vous pouvez simplement la mettre à l'échelle à en divisant par un grand nombre , et si vous observez une récompense au-dessus de doublez simplement la valeur, . Il n'y a pas de garantie de regret en utilisant cette approche, mais cela fonctionne généralement très bien. $[0,1]$ $S$ $S$ $S:=2S$

De plus, l'algorithme d'échantillonnage de Thompson que vous mentionnez a besoin d'essais de Bernoulli, vous ne pouvez donc pas utiliser de récompenses continues arbitraires. Vous pouvez adapter une distribution postérieure gaussienne au lieu d'une version bêta, mais cela est un peu sensible à votre choix de priorité, vous pouvez donc la définir comme très plate. Si vous ne cherchez pas à prouver quoi que ce soit sur votre implémentation, cela fonctionnera probablement très bien.

— fairidox
source

Merci beaucoup pour la réponse! J'apprécie vraiment cela! J'avais cependant une question. Je pense que l'algorithme 2 sur le papier (en haut de la page 39.4) que j'ai mentionné n'exige rien sur la distribution des récompenses MAIS le fait que son support soit en [0,1]. Peut-être que vous regardiez l'algorithme 1?

— invité le

Ouais, cool, une astuce assez intéressante pour convertir des valeurs réelles en échantillons de Bernoulli, merci d'avoir souligné que le détail m'avait échappé. Dans tous les cas, comme vous le dites, vous avez toujours besoin de variables bornées, vous pouvez le faire avec la double astuce bon marché que j'ai mentionnée et utiliser cette version de l'échantillonnage de Thompson. Mais vous pourriez être mieux de formuler une méthode qui utilise un postérieur gaussien.

— fairidox

J'examinerai plus en détail la méthode gaussienne postérieure, mais qu'entendez-vous par «plat» en termes de gaussien? Je suppose que cela correspondrait à quelque chose comme un Beta (1,1) (uniforme) avant, n'est-ce pas?

— invité le

à droite, mais vous ne pouvez évidemment pas avoir un uniforme avant sur un domaine illimité. Donc, si vous avez un modèle postérieur gaussien, vous auriez probablement un a priori gaussien, donc vous voulez généralement l'avoir aussi "plat" ou non informatif que possible. Cela signifie généralement que la variance doit être aussi grande que possible. Je ne suis pas un expert mais il y a tout un champ d'étude sur la façon de construire des prieurs non informatifs et potentiellement incorrects que vous voudrez peut-être examiner. De plus, si vous avez des récompenses strictement positives, vous voudrez peut-être envisager un modèle différent.

— fairidox