3

我正在尝试使用 Java 从头开始​​制作学习足球游戏,并且正在尝试使用 Google DeepMind 的 Deep Q 学习算法(尽管没有卷积网络)来实现强化学习。我已经建立了神经网络和 Q-learning,现在我试图将它们总结在一起,但这段代码中有一些我不明白的地方。

  1. Q值不是通常用零而不是随机值初始化吗?或者这是否意味着神经网络的权重(第 2 行)
  2. 是什么意思

预处理排序的 Φ1 = Φ(s1)(第 4 行)

我只是不知道 Φ 在这个算法中代表什么。

4

1 回答 1

3
  1. 它指的是神经网络的权重
  2. Φ(s​​)指的是预处理图/步骤,Φ是Φ(s1)的简写,每一帧是210x160像素x 128色。论文中使用了一些预处理。它们消除闪烁,仅使用亮度,重新缩放和堆叠。查看 2015 年论文中的“方法”部分。
于 2016-10-07T11:32:59.503 回答