reinforcement-learning - MDP的整形定理

Question

我需要帮助来理解 MDP 的整形定理。这是相关论文：https ://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf它基本上说马尔可夫决策过程对状态之间的转换具有一定的奖励功能并且动作 R(s, a, s') 与不同的马尔可夫决策过程具有相同的最优策略，其奖励定义为 R'(s, a, s') = R(s, a, s') + gamma* f(s') - f(s)，其中 gamma 是时间贴现率。

我理解证明，但它似乎是一个微不足道的情况，当所有状态和动作的 R(s, a, s') = 0 时，代理面临路径 A -> s -> B与 A -> r -> t -> B 相比。使用原始马尔可夫过程，我们得到两条路径的 EV 均为 0，因此两条路径都是最优的。但是随着我们得到的每个转换的潜力增加，第一个路径的 gamma^2*f(B)-f(A) 和第二个路径的 gamma^3*f(B) - f(A)。因此，如果 gamma < 1，并且 0 < f(B)，f(A)，则第二条路径不再是最优的。

我误解了这个定理，还是我犯了其他错误？

score 0 · Accepted Answer

您没有假设对于每个终端和起始状态s_T, s_0 我们有 f(s_T) = f(s_0) = 0。（注意，在论文中假设在终端状态之后总是有新的起始状态，以及潜在的“环绕”。

reinforcement-learning - MDP的整形定理

1 回答 1

Related

Reference