3

我正在阅读 DQN 网络上的 deepmind 自然论文。我几乎得到了一切,除了一个。我不知道为什么以前没有人问过这个问题,但无论如何对我来说似乎有点奇怪。

我的问题:DQN 的输入是 84*84*4 图像。第一个卷积层由 32 个 8*8 的滤波器组成,步长为 4。我想知道这个卷积阶段的结果到底是什么?我的意思是,输入是 3D,但我们有 32 个过滤器,它们都是 2D。第三维(对应于游戏中的最后 4 帧)如何参与卷积?

有任何想法吗?谢谢阿明

4

1 回答 1

3

您可以将第三个维度(代表最后四帧)视为进入网络的通道。

如果您组合 RGB 的三个通道来创建灰度表示,则会出现类似的情况。在这种情况下,您分别执行每个卷积(对于每个通道)并将贡献相加以给出最终输出特征图。

DeepMind 的人参考了这篇论文(What is the Best Multi-Stage Architecture for Object Recognition?),这可能会提供更好的解释。

于 2016-01-13T20:29:12.907 回答