3

我应该想出一个 MDP 代理,它使用策略迭代和值迭代进行分配,并将其性能与状态的效用值进行比较。

鉴于 MDP 代理知道转移概率和奖励,它如何知道要移动哪个动作?

据我了解,MDP 代理将执行策略迭代,并在给定策略的情况下计算它在达到终止状态时获得的奖励。该策略是从值迭代算法发展而来的。

有人可以提供一些关于策略迭代如何工作的直觉吗?

4

1 回答 1

0

假设您已经了解了策略迭代和值迭代算法是什么,代理只需通过为每个状态选择具有最高值的操作来构建新策略。

一个动作的价值是该动作所有可能的下一个状态到达下一个状态的概率*(下一个状态的值+转换的奖励)的总和。

于 2013-06-26T20:27:49.937 回答