java - 什么是深度 Q 学习算法中的 phi

问问题 2016-10-04T09:39:36.920

1551 次

3

我正在尝试使用 Java 从头开始制作学习足球游戏，并且正在尝试使用 Google DeepMind 的 Deep Q 学习算法（尽管没有卷积网络）来实现强化学习。我已经建立了神经网络和 Q-learning，现在我试图将它们总结在一起，但这段代码中有一些我不明白的地方。

Q值不是通常用零而不是随机值初始化吗？或者这是否意味着神经网络的权重（第 2 行）
是什么意思

预处理排序的 Φ1 = Φ(s1)（第 4 行）

我只是不知道 Φ 在这个算法中代表什么。

1 回答 1

3

它指的是神经网络的权重
Φ(s)指的是预处理图/步骤，Φ是Φ(s1)的简写，每一帧是210x160像素x 128色。论文中使用了一些预处理。它们消除闪烁，仅使用亮度，重新缩放和堆叠。查看 2015 年论文中的“方法”部分。

于 2016-10-07T11:32:59.503 回答