啊。经典教科书。我的副本有点过时,但看起来我的第 1.2.4 节处理的主题与您的相同。
首先,这是一个介绍性的章节,试图笼统而不是吓人,但结果它也很抽象,有点模糊。在这一点上,我不会太担心你不理解这些概念,更有可能是你想多了。后面的章节将充实现在似乎不清楚的事情。
在这种情况下,价值应该被理解为对某个状态或实例的质量或性能的衡量,而不是一般意义上的“价值”。以他的跳棋为例,具有高价值的状态是对计算机玩家有利/有利的棋盘情况。
这里的主要思想是,如果您可以为每个可能遇到的状态提供一个值,并且有一组规则定义可以通过执行哪些操作从当前状态到达哪些状态,那么您可以做出通知决定采取何种行动。
但是为状态分配值对于游戏的最终状态来说只是一项微不足道的任务。在最终状态获得的价值通常称为奖励。目标当然是最大化奖励。估计训练值是指根据您稍后在游戏中获得的结果将猜测值分配给中间状态的过程。
因此,在玩许多训练游戏时,您会跟踪您遇到的状态,如果您发现某个状态 X 导致状态 Y,您可以根据当前对 X 的估计值稍微改变您对 X 的估计值和Y 的当前估计值。这就是“估计训练权重”的全部内容。通过反复训练,模型变得有经验,估计应该收敛到可靠的值。它将开始避免导致失败的举动,而偏爱导致胜利的举动。有许多不同的方式来进行这种更新,并且有许多不同的方式来表示游戏状态,但这就是本书其余部分的内容。
我希望这有帮助!