我阅读了一些关于深度 Q 学习的材料,但我不确定我是否完全理解它。从我了解到的情况来看,深度 Q 学习似乎更快地计算 Q 值,而不是通过使用 NN 执行回归、计算损失和反向传播误差以更新权重将它们放在表上。然后,在测试场景中,它需要一个状态,NN 将为该状态可能的每个动作返回几个 Q 值。然后,将选择具有最高 Q 值的动作在该状态下完成。
我唯一的问题是如何更新权重。根据这个网站,权重更新如下:
我知道权重是随机初始化的,R 由环境返回,gamma 和 alpha 是手动设置的,但我不明白 Q(s',a,w) 和 Q(s,a,w) 是如何初始化和计算的. 似乎我们应该建立一个 Q 值表并像使用 Q-learning 一样更新它们,还是在每个 NN 训练时期自动计算它们?我在这里不明白什么?有人可以更好地向我解释这样的等式吗?