1

我们如何定义最优策略和分段最优策略?

我想这取决于它是连续时间问题还是离散时间问题。对于离散时间,两者应该相同。我对吗?

4

1 回答 1

0

我想自己添加一个答案。

分段最优策略将是我们贪婪地选择最优动作的策略(即仅在下一个瞬间最优)。然而,最优的将是我们在一个时间范围内选择策略(如在情节 MDP 中)。时间范围的长度取决于应用程序。

于 2017-03-13T18:27:02.900 回答