2

我发现无论是理论还是 Python 示例都不能满足初学者的要求。我只需要理解一个简单的例子来理解逐步迭代。任何人都可以向我展示我为价值迭代上传的图像的第一次和第二次迭代吗? 网格世界问题

4

2 回答 2

1

我推荐这个 PDF:http ://www.cis.upenn.edu/~cis519/fall2015/lectures/14_ReinforcementLearning.pdf ,它对网格世界问题非常清楚。而且github上有代码:

https://github.com/kevlar1818/grid-world-rl

https://github.com/dennybritz/reinforcement-learning/blob/master/DP/Policy%20Evaluation%20Solution.ipynb

希望那些帮助。

于 2018-05-30T07:03:14.173 回答
0

除了非常有用的@holibut 的链接,我还推荐:https ://github.com/JaeDukSeo/reinforcement-learning-an-introduction/blob/master/chapter03/GridWorld.py

作者实现了书中介绍的完整网格生成。恕我直言,这是一种更简单的实现,可以调试网格生成循环以清楚地逐步了解值是如何计算的,以及贝尔曼方程是如何应用的。

于 2020-09-07T16:42:11.117 回答