这个定义是正确的,但如果你第一次看到它,它就不是很明显。让我这样说:策略是代理的策略。
例如,想象一个机器人在房间内移动的世界,任务是到达目标点 (x, y),并在那里获得奖励。这里:
- 房间就是环境
- 机器人的当前位置是一个状态
策略是代理为完成此任务所做的工作:
- 愚蠢的机器人只是随意四处游荡,直到它们意外地出现在正确的地方(策略 #1)
- 出于某种原因,其他人可能会在大部分路线上学会沿着墙壁走(策略 #2)
- 智能机器人在“头脑”中规划路线并直奔目标(策略#3)
显然,有些政策比其他政策更好,并且有多种评估它们的方法,即状态-价值函数和行动-价值函数。RL 的目标是学习最佳策略。现在定义应该更有意义(请注意,在上下文中时间被更好地理解为一种状态):
策略定义了学习代理在给定时间的行为方式。
正式地
更正式地说,我们应该首先将马尔可夫决策过程(MDP) 定义为一个元组 ( S
, A
, P
, R
, y
),其中:
S
是一组有限的状态
A
是一组有限的动作
P
是一个状态转移概率矩阵(每个当前状态和每个动作最终进入一个状态的概率)
R
是一个奖励函数,给定一个状态和一个动作
y
是折扣因子,介于 0 和 1 之间
然后,策略π
是给定状态下动作的概率分布。这是代理处于特定状态时每个动作的可能性(当然,我在这里跳过了很多细节)。此定义对应于您定义的第二部分。
我强烈推荐YouTube 上的 David Silver 的 RL 课程。前两堂课特别关注 MDP 和政策。