1

我目前正在研究马尔可夫决策过程的动态编程解决方案。我觉得我已经很好地掌握了 VI 和 PI,而且我很清楚 PI 的动机(当我们需要正确的政策时,集中在正确的州公用事业上似乎是不必要的工作)。然而,我的实验都没有显示 PI 在运行时方面是有利的。无论状态空间的大小和折扣因子如何,它似乎总是需要更长的时间。

这可能是由于实现(我正在使用BURLAP库),或者我的实验不佳。然而,即使是趋势似乎也没有显示出好处。需要注意的是,PI 的 BURLAP 实现实际上是“修改后的策略迭代”,它在每次迭代时运行有限的 VI 变体。我的问题是,您是否知道(修改后的)PI 应该优于 VI 的任何情况,无论是理论上的还是实际的?

4

1 回答 1

2

事实证明,当折扣因子 (gamma) 非常高时,策略迭代,特别是修改后的策略迭代,可以胜过价值迭代。

http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf

于 2014-11-17T05:23:45.777 回答