1

Q-learning 使用即时奖励矩阵 R 对环境进行建模。这意味着它使用一个已知的矩阵 R 进行学习,那么为什么人们说“Q-learning 可以在未知环境中工作”呢?

4

1 回答 1

2

Q-Learning 是一种在马尔可夫决策过程 (MDP) 中寻找最优动作选择策略的算法。环境不仅由奖励定义,还由状态转移概率定义。MDP 不要求奖励是一个固定的矩阵:它可以是任何函数。

如果 MDP 的状态转移概率和奖励对于所有状态和动作都是已知的,那么可以使用动态编程技术找到最优策略,因此您不需要为此进行强化学习。

与动态编程技术不同,Q-Learning 在奖励和状态转移概率未知的情况下起作用:也就是说,您只有在采取行动后才能看到奖励值。

Q-learning 不使用即时奖励矩阵 R,它只要求a在状态下采取行动后s接收状态s'和奖励值r

于 2016-11-05T15:19:41.203 回答