reinforcement-learning - 通缉：用于最大化所有代理的整体奖励的多代理系统

翻译自：https://stackoverflow.com/questions/66967271 2021-04-06T10:54:06.393

31 次

也许您可以帮助我解决以下问题。

系统型号：

我们假设有两个智能体 A 和 B，以及它们对应的动作 a_a 和 a_b。动作空间定义为 {1,2,3}。这些数字对应于奖励矩阵的行和列。奖励矩阵定义如下：

代理 A 的奖励矩阵：[11 0 0, 0 0 0, 0 0 -10]

代理 B 的奖励矩阵：[11 0 0, 0 0 0, 0 0 100]

现在，代理 A 选择列，代理 B 选择行。两者都从相应的矩阵中观察奖励。

优化目标

我们希望最大化整体奖励，即代理 A 和 B 的奖励之和。

现在的问题是什么？

我们按照本教程（ray/centralized_critic.py at master·ray-project/ray·GitHub）使用集中式评论家多代理系统来解决上述目标。

不幸的是，这个系统只优化了代理的个人奖励，如下所示：

是否有任何适合我们优化目标的多智能体系统示例，即最大化整体奖励？

在我们的模型中，这将导致总体奖励为 90 而不是 22。

非常感谢。

最好的，亚伦

0 回答 0