1

我正在尝试使用masked_epsilon_greedy向我的dqn 代理添加非法操作屏蔽。有谁知道我如何更新策略网络以使用而不是“观察”,因为观察空间是一个包含观察和法律行动的字典?observation["your_key_for_observation"]

4

1 回答 1

0

答案是添加lambda inputs: inputs["your_key_for_observation"]到网络中,以防将来有人遇到此问题。

于 2021-07-21T11:08:02.083 回答