value-iteration - 为什么策略迭代比价值迭代快？

Question

我们知道策略迭代直接为我们提供策略，因此速度更快。但是任何人都可以用一些例子来解释它。

score 0 · Accepted Answer

策略迭代更快的原因是 - 一个策略可以由无限数量的价值函数表示，所以在策略迭代中，当你从一个策略跳到另一个策略时......你基本上已经跳过了无限数量的价值函数。

例如：

p1 = [0, 1, 1]

是针对 3 个状态和 2 个动作的策略，它在状态 0 处选择动作 0，在状态 1 和 2 处选择动作 1。

现在，让我们考虑两个价值函数：

v1 = [[0.9, 0.6], [0.6, 0.8], [0.8, 0.9]]

v2 = [[0.9, 0.6], [0.7, 0.8], [0.6, 0.9]]

在这里，v1 和 v2 都映射到同一个策略，所以当你进行策略迭代时，就像你不关心这两个是不同的值函数一样，因为它们映射到同一个策略。因此，当您更新策略时，您实际上已经丢弃了大量这些值函数，在进行值迭代时，您可能已经迭代了每个值函数（在最坏的情况下）。

1 回答 1