Qu'est-ce que Thompson Sampling en termes simples?

14

Je n'arrive pas à comprendre Thompson Sampling et comment cela fonctionne. Je lisais sur Multi Arm Bandit et après avoir lu l'algorithme de limite de confiance supérieure, de nombreux textes suggéraient que l'échantillonnage de Thompson était plus performant que l'UCB. Qu'est-ce que Thompson Sampling, en termes simples ou simples?

N'hésitez pas à fournir des articles de référence pour une meilleure compréhension.

machine-learning definition multiarmed-bandit

— déjà vu
source

9

Je vais essayer de donner une explication sans aucune mathématique. Une partie de cette réponse est répétée à partir de certains points que j'ai soulevés dans une réponse à une autre question sur les problèmes du MAB .

Le compromis stratégique dans les problèmes de bandit multi-bras: Dans les problèmes de bandit multi-bras, le joueur joue un "bandit" à chaque round et tente de maximiser son rendement total attendu sur un nombre donné de rounds. Le retour attendu de chacun des bandits est décrit par certains paramètres inconnus dans le problème, et donc comme nous observons plus de résultats à chaque tour, nous obtenons plus d'informations sur ces paramètres inconnus, et donc sur le retour attendu de chacun des bandits . À chaque tour de jeu (sauf le dernier), le problème MAB implique un compromis stratégique du joueur entre deux objectifs:

Récompenses immédiates: à chaque tour, il souhaite choisir une distribution qui lui donne une récompense attendue élevée pour ce tour, ce qui implique une préférence pour les distributions qu'il suppose (actuellement) avoir une récompense moyenne élevée;
Récompenses futures (affectées par le gain d'informations): D'autre part, il souhaite affiner sa connaissance des véritables récompenses attendues en obtenant plus d'informations sur les distributions (en particulier celles qu'il n'a pas jouées autant que les autres), afin qu'il puisse améliorer ses choix dans les prochains tours.

L'importance relative de ces deux éléments déterminera le compromis, et cette importance relative est affectée par un certain nombre de facteurs. Par exemple, s'il n'y a qu'un petit nombre de tours restants dans le problème, alors l'inférence pour les futurs essais est relativement moins valable, alors que s'il y a un grand nombre de tours restants alors l'inférence pour les récompenses futures est relativement plus valable. Le joueur doit donc considérer combien il veut se concentrer sur la maximisation des récompenses immédiates dans le cycle en cours, et combien il veut s'en écarter, pour en savoir plus sur les paramètres inconnus qui déterminent la récompense attendue de chacun des bandits.

Échantillonnage de Thompson: L'idée de base de l'échantillonnage de Thompson est qu'à chaque cycle, nous prenons notre connaissance existante des machines, qui se présente sous la forme d'une croyance postérieure sur les paramètres inconnus, et nous «échantillonnons» les paramètres de cette distribution postérieure. Ce paramètre échantillonné donne un ensemble de récompenses attendues pour chaque machine, et maintenant nous parions sur celle avec le rendement attendu le plus élevé, sous ce paramètre échantillonné.

À première vue , le schéma d'échantillonnage de Thompson semble impliquer une tentative de maximiser le rendement immédiat attendu à chaque cycle (puisqu'il implique cette étape de maximisation après l'échantillonnage du paramètre). Cependant, parce qu'il implique un échantillonnage aléatoire du paramètre du postérieur, le système implique une implicitevariation de maximiser la récompense actuelle, par rapport à la recherche de plus d'informations. La plupart du temps, nous obtiendrons un paramètre "échantillon" qui se situe quelque part dans la partie principale de la partie postérieure, et le choix de la machine se rapprochera grossièrement de la maximisation de la récompense immédiate. Cependant, parfois, nous échantillonnerons au hasard une valeur de paramètre qui est loin dans la queue de la distribution postérieure, et dans ce cas, nous finirons par choisir une machine qui ne maximise pas la récompense immédiate - c'est-à-dire, cela constituera davantage une "recherche". "pour vous aider avec de futures récompenses.

Le schéma de Thompson a également la belle propriété que nous avons tendance à diminuer notre "recherche" à mesure que nous obtenons plus d'informations, et cela imite le compromis stratégique souhaitable dans le problème, où nous voulons nous concentrer moins sur les recherches à mesure que nous obtenons plus d'informations. Au fur et à mesure que nous jouons de plus en plus de tours et que nous obtenons de plus en plus de données, le postérieur converge plus près des vraies valeurs des paramètres et ainsi l '"échantillonnage" aléatoire dans le schéma de Thompson devient plus serré autour des valeurs des paramètres qui conduiront à la maximisation du récompense immédiate. Par conséquent, ce schéma a une tendance implicite à être plus "orienté vers la recherche" au début avec peu d'informations, et moins "orienté vers la recherche" plus tard lorsqu'il y a beaucoup de données.

Cela dit, un inconvénient évident du schéma d'échantillonnage de Thompson est qu'il ne prend pas en compte le nombre de cycles restants dans le problème du MAB. Ce schéma est parfois formulé sur la base d'un jeu avec des tours infinis, et dans ce cas ce n'est pas un problème. Cependant, dans les problèmes MAB avec des tours finis, il est préférable de prendre en compte le nombre de tours restants afin de diminuer la "recherche" à mesure que le nombre de tours futurs diminue. (Et en particulier, le jeu optimal au dernier tour est d'ignorer complètement les recherches et de simplement miser sur le bandit avec le rendement attendu postérieur le plus élevé.) Le schéma de Thompson ne fait pas cela, donc il jouera des jeux à tour fini d'une manière c'est clairement sous-optimal dans certains cas.

— Réintégrer Monica
source

1

Je souhaite pouvoir donner à cette réponse plusieurs pouces vers le haut. J'ajouterais probablement comment je mettrais à jour les postérieurs - par exemple si les postérieurs étaient représentés comme des distributions normales - comment sont calculées les mises à jour pour la moyenne et l'écart-type des postérieurs. Je dis cela parce que je ne me connais pas

— Mellow

5

Je vais lui donner un coup de feu et j'espère qu'il vous plaira! Il y a quelques formules ci-dessous qui pourraient vous faire peur. Je ne l'espère pas, car je ferai de mon mieux pour les expliquer de la manière la plus simple possible.

Ce sont les deux formules:

$P(r|\theta,a,x)$
$P(\theta|D)$

TL; DR

L'échantillonnage Thompson vous permet

Choisissez un paramètre de modèle aléatoire parmi tous les paramètres de modèle que vous pensez être possibles.
Agissez une fois en fonction de ce paramètre de modèle particulier.
Observez la récompense que vous obtenez avec ce paramètre de modèle particulier.
Apprenez de cette nouvelle expérience et mettez à jour votre opinion sur les paramètres possibles du modèle.

Probabilité??

$r$ $a$ $x$

Et ce cercle étrange ??

$\theta$ $\theta$ $\theta$ , vous savez comment le contexte + les actions se rapportent à la récompense et il est facile d'agir de manière optimale.

Alors, comment pouvons-nous connaître ces paramètres du modèle afin que je puisse obtenir une récompense maximale ??

$\theta$ $\theta$

Tu n'as rien dit sur ce postérieur

$\theta$ $\theta$

Maintenant, qu'est-ce que Thomson Sampling suggère de faire avec toutes ces incertitudes ??

Thomson Sampling suggère quelque chose de très simple: il suffit de choisir un paramètre de modèle aléatoire à partir de votre postérieur, de prendre une action et d'observer ce qui se passe. Par exemple, lorsque vous n'êtes jamais allé à l'extérieur auparavant, le paramètre unhappiness-when-rain-on-head peut être n'importe quoi. Donc, nous n'en choisissons qu'un, nous supposons que nous sommes vraiment malheureux lorsque la pluie tombe sur notre tête. Nous voyons qu'il pleut (contexte) alors nous prenons un parapluie (action) parce que notre paramètre de modèle nous dit que c'est ainsi que nous pouvons obtenir la récompense maximale. Et en effet, vous constatez que vous êtes un peu grincheux de marcher sous la pluie avec un parapluie mais pas vraiment malheureux. Nous apprenons de cela que pluie + parapluie est grincheux. La prochaine fois qu'il pleut, vous choisissez à nouveau une croyance aléatoire sur ce qui se passe lorsque la pluie tombe sur votre tête. Cette fois, il se peut que cela ne vous dérange pas du tout. cependant, une fois à mi-chemin de votre destination, vous vous tordez et vous apprenez que la pluie sans parapluie est vraiment très mauvaise. Cela réduit votre incertitude concernant le malheur quand il pleut sur la tête, car maintenant vous savez qu'il est probablement élevé.

Cela semble si simple !!

Oui, ce n'est pas si complexe. La partie difficile est l'échantillonnage à partir d'un paramètre de modèle postérieur. Il est difficile d'obtenir et de maintenir une distribution sur tous les paramètres de votre modèle, qui convient également à votre problème spécifique. Mais ... c'est définitivement faisable :).

— Pieter
source