0

我正在尝试使用 PPO 和 actor/critic 来实现 RL 代理。代理必须通过沿其 x 和 y 轴设置 2 个力(2 个动作)来在 xy 平面上移动。最初我认为我的演员网络需要两个输出头,每个动作一个。然而,我遇到了 OpenAI 的这项工作,他们有一个类似的代理。然而,他们使用一个输出头进行运动(沿 xy 和 z),其中动作具有“多离散”类型。知道这是如何工作的吗?“多离散”是做什么的?它基本上是对不同动作的所有组合进行编码吗?

  • 请记住,动作是离散的。非常感谢任何帮助/见解
4

0 回答 0