6

我正在使用健身房工具包来创建我自己的环境,并使用 keras-rl 在代理中使用我的环境。问题是我的动作空间发生了变化,这取决于实际状态。例如,我有 46 种可能的动作,但在特定状态下只有 7 种可用,我无法找到对其建模的方法。

我读过这个问题open-ai-enviroment-with-changeing-action-space-after-each-step

但这并没有解决我的问题。

在 Gym Documentation 中没有执行此操作的说明,只有他们的 Github repo 上的一个问题(仍然开放)。我不明白代理(keras-rl,dqn 代理)如何采取行动,是随机选择的吗?但从哪里来?

有人可以帮助我吗?想法?

4

1 回答 1

0

我通过忽略任何无效动作并让探索机制防止它卡住来处理这个问题。快速简单,但可能是更好的方法。

我认为更好的选择是以某种方式将选择该操作的概率设置为零,但我很难弄清楚如何做到这一点。

于 2019-08-27T06:14:22.947 回答