0

我正在研究一个项目,我需要在多代理场景中的连续空间中找到从 1 点到另一个点的最佳优化路径。我正在使用强化学习寻找适合这个问题的最佳算法。我已经尝试过“混合合作竞争环境的多智能体演员评论家”,但它似乎没有达到 10000 个 epesidoes 的目标。我该如何改进这个算法,或者有没有其他算法可以帮助我解决这个问题。

4

1 回答 1

0

多智能体强化学习很难掌握,并且尚未证明对一般情况有效。

问题在于,在多智能体中,从每个个体智能体的角度来看,环境变得不稳定。这意味着一个代理动作不能直接映射到状态,因为其他代理分别执行操作,这会“混淆”所有代理。这里有深入的多智能体研究合集:https ://github.com/LantaoYu/MARL-Papers

如果您希望采用您提到的 actor-critic 方法,我建议您进一步研究:https ://arxiv.org/pdf/1706.02275.pdf如果您想完善Multi-Agent Actor Critic (MADDPG)

于 2019-06-26T05:28:26.720 回答