我正在尝试使用 Java 从头开始制作学习足球游戏,并且正在尝试使用 Google DeepMind 的 Deep Q 学习算法(尽管没有卷积网络)来实现强化学习。我已经建立了神经网络和 Q-learning,现在我试图将它们总结在一起,但这段代码中有一些我不明白的地方。
- Q值不是通常用零而不是随机值初始化吗?或者这是否意味着神经网络的权重(第 2 行)
- 是什么意思
预处理排序的 Φ1 = Φ(s1)(第 4 行)
我只是不知道 Φ 在这个算法中代表什么。
我正在尝试使用 Java 从头开始制作学习足球游戏,并且正在尝试使用 Google DeepMind 的 Deep Q 学习算法(尽管没有卷积网络)来实现强化学习。我已经建立了神经网络和 Q-learning,现在我试图将它们总结在一起,但这段代码中有一些我不明白的地方。
预处理排序的 Φ1 = Φ(s1)(第 4 行)
我只是不知道 Φ 在这个算法中代表什么。