Statistiques et Big Data multiarmed-bandit

3

L'algorithme de bandit le plus connu est la borne de confiance supérieure (UCB) qui a popularisé cette classe d'algorithmes. Depuis lors, je suppose qu'il existe désormais de meilleurs algorithmes. Quel est le meilleur algorithme actuel (en termes de performances empiriques ou de limites théoriques)? Cet algorithme est-il optimal dans un …

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

4

Dans quel genre de situations réelles pouvons-nous utiliser un algorithme de bandit multi-bras?

Les bandits multi-bras fonctionnent bien dans une situation où vous avez le choix et vous ne savez pas lequel maximisera votre bien-être. Vous pouvez utiliser l'algorithme pour certaines situations réelles. À titre d'exemple, l'apprentissage peut être un bon domaine: Si un enfant apprend la menuiserie et qu'il est mauvais dans …

15 algorithms reinforcement-learning multiarmed-bandit

1

Fonctions de coût pour les bandits contextuels

J'utilise vowpal wabbit pour résoudre un problème de bandit contextuel . Je montre des publicités aux utilisateurs, et j'ai pas mal d'informations sur le contexte dans lequel la publicité est diffusée (par exemple, qui est l'utilisateur, sur quel site il se trouve, etc.). Cela semble être un problème de bandit …

14 multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

2

Qu'est-ce que Thompson Sampling en termes simples?

Je n'arrive pas à comprendre Thompson Sampling et comment cela fonctionne. Je lisais sur Multi Arm Bandit et après avoir lu l'algorithme de limite de confiance supérieure, de nombreux textes suggéraient que l'échantillonnage de Thompson était plus performant que l'UCB. Qu'est-ce que Thompson Sampling, en termes simples ou simples? N'hésitez …

14 machine-learning definition multiarmed-bandit

1

Algorithme optimal pour résoudre les problèmes de bandit à n bras?

Je l' ai lu sur un certain nombre d'algorithmes pour la résolution des problèmes de bandit n armés comme -greedy, softmax et UCB1, mais je vais avoir quelques problèmes de tri par quelle approche est la meilleure pour réduire au minimum le regret.ϵϵ\epsilon Existe-t-il un algorithme optimal connu pour résoudre …

13 machine-learning reinforcement-learning multiarmed-bandit

1

Bandit multi-armé pour la distribution générale des récompenses

Je travaille sur un problème de bandit à plusieurs bras où nous n'avons aucune information sur la distribution des récompenses. J'ai trouvé de nombreux articles qui garantissent des bornes de regret pour une distribution avec borne connue, et pour des distributions générales avec support dans [0,1]. Je voudrais savoir s'il …

11 references multiarmed-bandit

2

Limite de confiance supérieure dans l'apprentissage automatique

Je suis tombé sur la formule pour obtenir les limites de confiance supérieures sur le problème des bandits armés de k: clnNjenje-----√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} où njenin_i est la quantité d'échantillons que nous avons pour ce bandit particulier et NjeNiN_iest la quantité totale d'échantillons que nous avons de tous les bandits. Le …

8 machine-learning mathematical-statistics confidence-interval reinforcement-learning multiarmed-bandit

Questions marquées «multiarmed-bandit»