Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我们如何定义最优策略和分段最优策略?
我想这取决于它是连续时间问题还是离散时间问题。对于离散时间,两者应该相同。我对吗?
我想自己添加一个答案。
分段最优策略将是我们贪婪地选择最优动作的策略(即仅在下一个瞬间最优)。然而,最优的将是我们在一个时间范围内选择策略(如在情节 MDP 中)。时间范围的长度取决于应用程序。