有没有解决有限范围半马尔可夫决策过程的算法?
我想为具有有限动作空间、有限状态空间和截止日期的顺序决策问题找到最佳策略。至关重要的是,不同的动作需要不同的时间,对于其中一个动作,这个持续时间是随机的。我可以根据可用的方法将时间建模为离散的或连续的。
我知道折扣无限视野半 MDP 的算法,但我找不到任何关于有限视野半 MDP 的工作。以前研究过这类问题吗?
有没有解决有限范围半马尔可夫决策过程的算法?
我想为具有有限动作空间、有限状态空间和截止日期的顺序决策问题找到最佳策略。至关重要的是,不同的动作需要不同的时间,对于其中一个动作,这个持续时间是随机的。我可以根据可用的方法将时间建模为离散的或连续的。
我知道折扣无限视野半 MDP 的算法,但我找不到任何关于有限视野半 MDP 的工作。以前研究过这类问题吗?