machine-learning - 强化学习——代理如何知道选择哪个动作？

Question

我正在尝试了解Q-Learning

基本更新公式：

Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]

我了解公式及其作用，但我的问题是：

代理如何知道选择 Q(st, at)？

我知道代理遵循一些策略 π，但是你首先如何创建这个策略？

目前我有：

但是，这并不能真正解决很多问题，您仍然会陷入局部最小值/最大值。

所以，为了圆满结束，我的主要问题是：

对于一个一无所知并且使用无模型算法的代理，你如何生成一个初始策略，以便它知道要采取什么行动？

score 0 · Accepted Answer

该更新公式增量计算每个状态中每个动作的期望值。贪婪的策略总是选择价值最高的行动。当您已经了解了这些价值观时，这是最好的策略。学习期间最常用的策略是 ε-greedy 策略，它选择概率为 1-ε 的最高值动作，以及概率为 ε 的随机动作。

1 回答 1