Apprentissage par renforcement coopératif

10

J'ai déjà une implémentation fonctionnelle pour un seul agent travaillant sur un problème de tarification dynamique dans le but de maximiser les revenus. Le problème avec lequel je travaille, cependant, implique plusieurs produits différents qui se remplacent les uns les autres, donc leur tarification dynamique avec des apprenants indépendants semble incorrecte, car le prix de l'un influe sur la récompense de l'autre. L'objectif serait de les évaluer dynamiquement afin de maximiser la somme de chaque revenu individuel. $Q(\lambda)$

J'ai fait des recherches pour essayer de trouver quelque chose qui applique l'apprentissage par renforcement de cette manière, mais de nombreuses implémentations multi-agents se sont davantage concentrées sur les jeux compétitifs que coopératifs, ou supposent une connaissance incomplète des autres agents (j'aurais terminé connaissance de chaque agent dans ce scénario). Existe-t-il des applications bien documentées et bien documentées de l'apprentissage coopératif de cette manière?

machine-learning reinforcement-learning

— user3704120
source

1

Vous pouvez regarder ces papiers. Le premier est assez lié à votre tâche.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
source

0

Dans l'ensemble, ce que vous essayez d'atteindre, c'est l'efficacité de Pareto.

Afin de le rendre coopératif, vous devez définir une fonction de récompense unique qui est partagée par tous les joueurs (il pourrait s'agir d'une fonction qui combine en quelque sorte des fonctions de récompense individuelles).

D'une manière ou d'une autre, vous devez pondérer les récompenses que vous obtenez d'un produit par rapport aux autres.

— Juan Leni
source