0

也许您可以帮助我解决以下问题。

系统型号:

我们假设有两个智能体 A 和 B,以及它们对应的动作 a_a 和 a_b。动作空间定义为 {1,2,3}。这些数字对应于奖励矩阵的行和列。奖励矩阵定义如下:

代理 A 的奖励矩阵:[11 0 0, 0 0 0, 0 0 -10]

代理 B 的奖励矩阵:[11 0 0, 0 0 0, 0 0 100]

现在,代理 A 选择列,代理 B 选择行。两者都从相应的矩阵中观察奖励。

优化目标

我们希望最大化整体奖励,即代理 A 和 B 的奖励之和。

现在的问题是什么?

我们按照本教程(ray/centralized_critic.py at master·ray-project/ray·GitHub)使用集中式评论家多代理系统来解决上述目标。

不幸的是,这个系统只优化了代理的个人奖励,如下所示:

点击这里查看奖励图

是否有任何适合我们优化目标的多智能体系统示例,即最大化整体奖励?

在我们的模型中,这将导致总体奖励为 90 而不是 22。

非常感谢。

最好的,亚伦

4

0 回答 0