我正在尝试使用masked_epsilon_greedy向我的dqn 代理添加非法操作屏蔽。有谁知道我如何更新策略网络以使用而不是“观察”,因为观察空间是一个包含观察和法律行动的字典?observation["your_key_for_observation"]
问问题
39 次
我正在尝试使用masked_epsilon_greedy向我的dqn 代理添加非法操作屏蔽。有谁知道我如何更新策略网络以使用而不是“观察”,因为观察空间是一个包含观察和法律行动的字典?observation["your_key_for_observation"]