我有一个 5x-5 的迷宫,指定如下。
r = [1 0 1 1 1
1 1 1 0 1
0 1 0 0 1
1 1 1 0 1
1 0 1 0 1];
其中 1 是路径,0 是墙壁。
假设我有一个函数 foo(policy_vector, r) 将策略向量的元素映射到 r 中的元素。例如 1=上,2=右,3=下,4=左。MDP 的设置使得墙状态永远不会实现,因此这些状态的策略在图中被忽略。
policy_vector' = [3 2 2 2 3 2 2 1 2 3 1 1 1 2 3 2 1 4 2 3 1 1 1 2 2]
symbols' = [v > > > v > > ^ > v ^ ^ ^ > v > ^ < > v ^ ^ ^ > >]
我试图在解决迷宫的背景下展示我对马尔可夫决策过程的政策决定。我将如何绘制看起来像这样的东西?Matlab 更可取,但 Python 很好。
即使有人可以告诉我如何制作这样的情节,我也可以从那里弄清楚。