0

有没有解决有限范围半马尔可夫决策过程的算法?

我想为具有有限动作空间、有限状态空间和截止日期的顺序决策问题找到最佳策略。至关重要的是,不同的动作需要不同的时间,对于其中一个动作,这个持续时间是随机的。我可以根据可用的方法将时间建模为离散的或连续的。

我知道折扣无限视野半 MDP 的算法,但我找不到任何关于有限视野半 MDP 的工作。以前研究过这类问题吗?

4

1 回答 1

0

与几乎所有 MDP 一样,向后动态编程应该可以工作。您可以从 0 到截止日期以小步骤离散您的有限范围,然后从截止日期开始递归更新值。在状态空间中,您必须跟踪当前操作、在该操作上花费的总时间以及已完成的操作。可能状态的数量可能非常大。

在动态程序中,您可以利用您可以在操作完成时为状态选择值函数。

于 2016-05-03T10:42:22.893 回答