Je vais essayer de donner une explication sans aucune mathématique. Une partie de cette réponse est répétée à partir de certains points que j'ai soulevés dans une réponse à une autre question sur les problèmes du MAB .
Le compromis stratégique dans les problèmes de bandit multi-bras: Dans les problèmes de bandit multi-bras, le joueur joue un "bandit" à chaque round et tente de maximiser son rendement total attendu sur un nombre donné de rounds. Le retour attendu de chacun des bandits est décrit par certains paramètres inconnus dans le problème, et donc comme nous observons plus de résultats à chaque tour, nous obtenons plus d'informations sur ces paramètres inconnus, et donc sur le retour attendu de chacun des bandits . À chaque tour de jeu (sauf le dernier), le problème MAB implique un compromis stratégique du joueur entre deux objectifs:
Récompenses immédiates: à chaque tour, il souhaite choisir une distribution qui lui donne une récompense attendue élevée pour ce tour, ce qui implique une préférence pour les distributions qu'il suppose (actuellement) avoir une récompense moyenne élevée;
Récompenses futures (affectées par le gain d'informations): D'autre part, il souhaite affiner sa connaissance des véritables récompenses attendues en obtenant plus d'informations sur les distributions (en particulier celles qu'il n'a pas jouées autant que les autres), afin qu'il puisse améliorer ses choix dans les prochains tours.
L'importance relative de ces deux éléments déterminera le compromis, et cette importance relative est affectée par un certain nombre de facteurs. Par exemple, s'il n'y a qu'un petit nombre de tours restants dans le problème, alors l'inférence pour les futurs essais est relativement moins valable, alors que s'il y a un grand nombre de tours restants alors l'inférence pour les récompenses futures est relativement plus valable. Le joueur doit donc considérer combien il veut se concentrer sur la maximisation des récompenses immédiates dans le cycle en cours, et combien il veut s'en écarter, pour en savoir plus sur les paramètres inconnus qui déterminent la récompense attendue de chacun des bandits.
Échantillonnage de Thompson: L'idée de base de l'échantillonnage de Thompson est qu'à chaque cycle, nous prenons notre connaissance existante des machines, qui se présente sous la forme d'une croyance postérieure sur les paramètres inconnus, et nous «échantillonnons» les paramètres de cette distribution postérieure. Ce paramètre échantillonné donne un ensemble de récompenses attendues pour chaque machine, et maintenant nous parions sur celle avec le rendement attendu le plus élevé, sous ce paramètre échantillonné.
À première vue , le schéma d'échantillonnage de Thompson semble impliquer une tentative de maximiser le rendement immédiat attendu à chaque cycle (puisqu'il implique cette étape de maximisation après l'échantillonnage du paramètre). Cependant, parce qu'il implique un échantillonnage aléatoire du paramètre du postérieur, le système implique une implicitevariation de maximiser la récompense actuelle, par rapport à la recherche de plus d'informations. La plupart du temps, nous obtiendrons un paramètre "échantillon" qui se situe quelque part dans la partie principale de la partie postérieure, et le choix de la machine se rapprochera grossièrement de la maximisation de la récompense immédiate. Cependant, parfois, nous échantillonnerons au hasard une valeur de paramètre qui est loin dans la queue de la distribution postérieure, et dans ce cas, nous finirons par choisir une machine qui ne maximise pas la récompense immédiate - c'est-à-dire, cela constituera davantage une "recherche". "pour vous aider avec de futures récompenses.
Le schéma de Thompson a également la belle propriété que nous avons tendance à diminuer notre "recherche" à mesure que nous obtenons plus d'informations, et cela imite le compromis stratégique souhaitable dans le problème, où nous voulons nous concentrer moins sur les recherches à mesure que nous obtenons plus d'informations. Au fur et à mesure que nous jouons de plus en plus de tours et que nous obtenons de plus en plus de données, le postérieur converge plus près des vraies valeurs des paramètres et ainsi l '"échantillonnage" aléatoire dans le schéma de Thompson devient plus serré autour des valeurs des paramètres qui conduiront à la maximisation du récompense immédiate. Par conséquent, ce schéma a une tendance implicite à être plus "orienté vers la recherche" au début avec peu d'informations, et moins "orienté vers la recherche" plus tard lorsqu'il y a beaucoup de données.
Cela dit, un inconvénient évident du schéma d'échantillonnage de Thompson est qu'il ne prend pas en compte le nombre de cycles restants dans le problème du MAB. Ce schéma est parfois formulé sur la base d'un jeu avec des tours infinis, et dans ce cas ce n'est pas un problème. Cependant, dans les problèmes MAB avec des tours finis, il est préférable de prendre en compte le nombre de tours restants afin de diminuer la "recherche" à mesure que le nombre de tours futurs diminue. (Et en particulier, le jeu optimal au dernier tour est d'ignorer complètement les recherches et de simplement miser sur le bandit avec le rendement attendu postérieur le plus élevé.) Le schéma de Thompson ne fait pas cela, donc il jouera des jeux à tour fini d'une manière c'est clairement sous-optimal dans certains cas.