dynamic-programming - 连续时间有限范围 MDP

Question

有没有解决有限范围半马尔可夫决策过程的算法？

我想为具有有限动作空间、有限状态空间和截止日期的顺序决策问题找到最佳策略。至关重要的是，不同的动作需要不同的时间，对于其中一个动作，这个持续时间是随机的。我可以根据可用的方法将时间建模为离散的或连续的。

我知道折扣无限视野半 MDP 的算法，但我找不到任何关于有限视野半 MDP 的工作。以前研究过这类问题吗？

score 0 · Accepted Answer

与几乎所有 MDP 一样，向后动态编程应该可以工作。您可以从 0 到截止日期以小步骤离散您的有限范围，然后从截止日期开始递归更新值。在状态空间中，您必须跟踪当前操作、在该操作上花费的总时间以及已完成的操作。可能状态的数量可能非常大。

在动态程序中，您可以利用您可以在操作完成时为状态选择值函数。

1 回答 1