reinforcement-learning - 使用时间差异学习有什么意义？

Question

据我所知，对于一个特定的策略 \pi，时间差异学习让我们计算该策略 \pi 之后的期望值，但是知道一个具体的策略有什么意义呢？

我们不应该尝试为给定环境找到最佳策略吗？完全使用时间差异学习来做一个特定的 \pi 有什么意义呢？

score 3 · Accepted Answer

正如您所说，仅找到给定策略的价值函数在一般情况下并不是很有用，目标是找到最佳策略。然而，一些经典算法，例如SARSA或Q-learning，可以被视为的特例generalized policy iteration，其中最困难的部分是找到策略的价值函数。一旦你知道了价值函数，就很容易找到更好的策略，然后再次找到最近计算的策略的价值函数，依此类推。在给定一些条件的情况下，这个过程会收敛到最优策略。

总之，temporal difference learning是其他算法中允许找到最佳策略的关键步骤。

reinforcement-learning - 使用时间差异学习有什么意义？

1 回答 1

Related

Reference