J'ai déjà une implémentation fonctionnelle pour un seul agent travaillant sur un problème de tarification dynamique dans le but de maximiser les revenus. Le problème avec lequel je travaille, cependant, implique plusieurs produits différents qui se remplacent les uns les autres, donc leur tarification dynamique avec des apprenants indépendants semble incorrecte, car le prix de l'un influe sur la récompense de l'autre. L'objectif serait de les évaluer dynamiquement afin de maximiser la somme de chaque revenu individuel.
J'ai fait des recherches pour essayer de trouver quelque chose qui applique l'apprentissage par renforcement de cette manière, mais de nombreuses implémentations multi-agents se sont davantage concentrées sur les jeux compétitifs que coopératifs, ou supposent une connaissance incomplète des autres agents (j'aurais terminé connaissance de chaque agent dans ce scénario). Existe-t-il des applications bien documentées et bien documentées de l'apprentissage coopératif de cette manière?