我应该想出一个 MDP 代理,它使用策略迭代和值迭代进行分配,并将其性能与状态的效用值进行比较。
鉴于 MDP 代理知道转移概率和奖励,它如何知道要移动哪个动作?
据我了解,MDP 代理将执行策略迭代,并在给定策略的情况下计算它在达到终止状态时获得的奖励。该策略是从值迭代算法发展而来的。
有人可以提供一些关于策略迭代如何工作的直觉吗?
我应该想出一个 MDP 代理,它使用策略迭代和值迭代进行分配,并将其性能与状态的效用值进行比较。
鉴于 MDP 代理知道转移概率和奖励,它如何知道要移动哪个动作?
据我了解,MDP 代理将执行策略迭代,并在给定策略的情况下计算它在达到终止状态时获得的奖励。该策略是从值迭代算法发展而来的。
有人可以提供一些关于策略迭代如何工作的直觉吗?