0

我正在从事一个研究项目,该项目涉及将强化学习应用于规划和决策问题。通常,这些问题涉及根据排名 [max_q 到 min_q] 在一个状态中选择(采样)多个动作。RL 文献似乎侧重于从一组状态映射到单个动作而不是多个动作的策略。有谁知道不仅可以将状态映射到多个同时动作而且可以保持这些动作之间的关系的方法? 这里是DQN动作选择函数源码

谢谢

4

0 回答 0