reinforcement-learning - Gym（openAI）环境动作空间取决于实际状态

Question

我正在使用健身房工具包来创建我自己的环境，并使用 keras-rl 在代理中使用我的环境。问题是我的动作空间发生了变化，这取决于实际状态。例如，我有 46 种可能的动作，但在特定状态下只有 7 种可用，我无法找到对其建模的方法。

但这并没有解决我的问题。

在 Gym Documentation 中没有执行此操作的说明，只有他们的 Github repo 上的一个问题（仍然开放）。我不明白代理（keras-rl，dqn 代理）如何采取行动，是随机选择的吗？但从哪里来？

有人可以帮助我吗？想法？

score 0 · Accepted Answer

我通过忽略任何无效动作并让探索机制防止它卡住来处理这个问题。快速简单，但可能是更好的方法。

我认为更好的选择是以某种方式将选择该操作的概率设置为零，但我很难弄清楚如何做到这一点。

1 回答 1