machine-learning - 使用 Gym Multidiscrete 表示多个动作

翻译自：https://stackoverflow.com/questions/70638253 2022-01-09T03:40:25.903

27 次

我正在尝试使用 PPO 和 actor/critic 来实现 RL 代理。代理必须通过沿其 x 和 y 轴设置 2 个力（2 个动作）来在 xy 平面上移动。最初我认为我的演员网络需要两个输出头，每个动作一个。然而，我遇到了 OpenAI 的这项工作，他们有一个类似的代理。然而，他们使用一个输出头进行运动（沿 xy 和 z），其中动作具有“多离散”类型。知道这是如何工作的吗？“多离散”是做什么的？它基本上是对不同动作的所有组合进行编码吗？

请记住，动作是离散的。非常感谢任何帮助/见解

machine-learning - 使用 Gym Multidiscrete 表示多个动作

0 回答 0

Related

Reference