reinforcement-learning - 如何使用值迭代解决强化学习网格世界示例？

Question

我发现无论是理论还是 Python 示例都不能满足初学者的要求。我只需要理解一个简单的例子来理解逐步迭代。任何人都可以向我展示我为价值迭代上传的图像的第一次和第二次迭代吗？网格世界问题

score 1 · Accepted Answer

我推荐这个 PDF：http ://www.cis.upenn.edu/~cis519/fall2015/lectures/14_ReinforcementLearning.pdf ，它对网格世界问题非常清楚。而且github上有代码：

希望那些帮助。

score 0 · Accepted Answer

作者实现了书中介绍的完整网格生成。恕我直言，这是一种更简单的实现，可以调试网格生成循环以清楚地逐步了解值是如何计算的，以及贝尔曼方程是如何应用的。

2 回答 2