据我所知,对于一个特定的策略 \pi,时间差异学习让我们计算该策略 \pi 之后的期望值,但是知道一个具体的策略有什么意义呢?
我们不应该尝试为给定环境找到最佳策略吗?完全使用时间差异学习来做一个特定的 \pi 有什么意义呢?
据我所知,对于一个特定的策略 \pi,时间差异学习让我们计算该策略 \pi 之后的期望值,但是知道一个具体的策略有什么意义呢?
我们不应该尝试为给定环境找到最佳策略吗?完全使用时间差异学习来做一个特定的 \pi 有什么意义呢?
正如您所说,仅找到给定策略的价值函数在一般情况下并不是很有用,目标是找到最佳策略。然而,一些经典算法,例如SARSA
或Q-learning
,可以被视为 的特例generalized policy iteration
,其中最困难的部分是找到策略的价值函数。一旦你知道了价值函数,就很容易找到更好的策略,然后再次找到最近计算的策略的价值函数,依此类推。在给定一些条件的情况下,这个过程会收敛到最优策略。
总之,temporal difference learning
是其他算法中允许找到最佳策略的关键步骤。