Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个关于 RL 奖励的问题。这句话是真的吗?如果是为什么?先感谢您
“每次(对于来自同一状态的同一动作)的奖励不必相同。”
对于确定性完美信息博弈,这是真的。想想围棋或国际象棋等游戏。但对于其他游戏来说,相同状态和动作的奖励主要取决于游戏当前的内部状态。