我正在使用健身房工具包来创建我自己的环境,并使用 keras-rl 在代理中使用我的环境。问题是我的动作空间发生了变化,这取决于实际状态。例如,我有 46 种可能的动作,但在特定状态下只有 7 种可用,我无法找到对其建模的方法。
我读过这个问题open-ai-enviroment-with-changeing-action-space-after-each-step
但这并没有解决我的问题。
在 Gym Documentation 中没有执行此操作的说明,只有他们的 Github repo 上的一个问题(仍然开放)。我不明白代理(keras-rl,dqn 代理)如何采取行动,是随机选择的吗?但从哪里来?
有人可以帮助我吗?想法?