也许您可以帮助我解决以下问题。
系统型号:
我们假设有两个智能体 A 和 B,以及它们对应的动作 a_a 和 a_b。动作空间定义为 {1,2,3}。这些数字对应于奖励矩阵的行和列。奖励矩阵定义如下:
代理 A 的奖励矩阵:[11 0 0, 0 0 0, 0 0 -10]
代理 B 的奖励矩阵:[11 0 0, 0 0 0, 0 0 100]
现在,代理 A 选择列,代理 B 选择行。两者都从相应的矩阵中观察奖励。
优化目标
我们希望最大化整体奖励,即代理 A 和 B 的奖励之和。
现在的问题是什么?
我们按照本教程(ray/centralized_critic.py at master·ray-project/ray·GitHub)使用集中式评论家多代理系统来解决上述目标。
不幸的是,这个系统只优化了代理的个人奖励,如下所示:
是否有任何适合我们优化目标的多智能体系统示例,即最大化整体奖励?
在我们的模型中,这将导致总体奖励为 90 而不是 22。
非常感谢。
最好的,亚伦