mdp - 何时使用策略迭代而不是值迭代

Question

我目前正在研究马尔可夫决策过程的动态编程解决方案。我觉得我已经很好地掌握了 VI 和 PI，而且我很清楚 PI 的动机（当我们需要正确的政策时，集中在正确的州公用事业上似乎是不必要的工作）。然而，我的实验都没有显示 PI 在运行时方面是有利的。无论状态空间的大小和折扣因子如何，它似乎总是需要更长的时间。

这可能是由于实现（我正在使用BURLAP库），或者我的实验不佳。然而，即使是趋势似乎也没有显示出好处。需要注意的是，PI 的 BURLAP 实现实际上是“修改后的策略迭代”，它在每次迭代时运行有限的 VI 变体。我的问题是，您是否知道（修改后的）PI 应该优于 VI 的任何情况，无论是理论上的还是实际的？

score 2 · Accepted Answer

事实证明，当折扣因子 (gamma) 非常高时，策略迭代，特别是修改后的策略迭代，可以胜过价值迭代。

http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf

mdp - 何时使用策略迭代而不是值迭代

1 回答 1

Related

Reference