2

我正在从 Q-learning Perspective研究GridWorld 。我对以下问题有疑问:

1) In the grid-world example, rewards are positive for goals, negative
   for running into the edge of the world, and zero the rest of the time.
   Are the signs of these rewards important, or only the intervals
   between them?
4

2 回答 2

1

只有相对值很重要。假设您具有以下奖励功能...

公式

现在假设我们为所有奖励添加一个常数C ...

公式2

我们可以证明,添加一个常数C会在所有状态的值上添加另一个常数K,因此不会影响任何状态的相对值......

公式3

在哪里...

公式4

这些值始终保持一致,因此只有奖励之间的间隔很重要,而不是它们的符号。

然而,重要的是要注意,这条规则并不适用于所有的情节任务。通常,该规则仅适用于剧集长度固定的情况。对于每集的长度由动作决定的任务(想想棋盘游戏),添加一个正常数可能会导致更长的学习间隔。

于 2019-02-25T05:09:22.097 回答
1

请记住,Q 值是预期值。该策略将通过选择最大化每个给定状态的 Q 函数的动作来提取。

a_best(s) = max_a Q(s,a) 

请注意,您可以将常数值应用于所有 Q 值而不影响策略。如果通过应用某个常数值来移动所有 q 值并不重要,q 值与 max 之间的关系仍然是相同的。事实上,您可以应用任何仿射变换 (Q'= a*Q+b),您的决定不会改变。

于 2016-02-27T12:18:57.257 回答