我目前正在尝试了解 TD-Gammon 的工作原理并有两个问题:
1)我找到了一篇解释权重更新的文章。它由三部分组成。最后一部分是 V(s) 相对于 w 的微分。在文本中,它被称为“运行总和”。我如何计算该值?(我只对从输出到隐藏层的权重变化感兴趣,而不对进一步的权重变化感兴趣)
2)在阅读了这个更新权重的过程之后,出现了一个问题:为什么我们不使用强化学习为状态创建一个目标值并将该值赋予我们的神经网络,以便它学会返回那个当前状态的价值?为什么有一个额外的更新规则直接操纵权重?
我目前正在尝试了解 TD-Gammon 的工作原理并有两个问题:
1)我找到了一篇解释权重更新的文章。它由三部分组成。最后一部分是 V(s) 相对于 w 的微分。在文本中,它被称为“运行总和”。我如何计算该值?(我只对从输出到隐藏层的权重变化感兴趣,而不对进一步的权重变化感兴趣)
2)在阅读了这个更新权重的过程之后,出现了一个问题:为什么我们不使用强化学习为状态创建一个目标值并将该值赋予我们的神经网络,以便它学会返回那个当前状态的价值?为什么有一个额外的更新规则直接操纵权重?