7

我知道mnist数据集中的手写数字图像是28×28,但是为什么LeNet5的输入是32×32呢?

4

1 回答 1

2

您的问题在原始论文中得到了回答:
卷积步骤始终采用比前一层的特征图更小的输入(这对于第一层 - 输入 - 也是如此):

C1 层是具有 6 个特征图的卷积层。每个特征图中的每个单元都连接到输入中的 5x5 邻域。特征图的大小为 28x28,可防止来自输入的连接脱离边界。

这意味着在 32x32 输入上使用 5x5 邻域,您将获得 6 个大小为 28x28 的特征图,因为您不会在图像边界处使用像素(这些数字总是有余数)。

当然,他们可以对第一层有一个例外。他们仍在使用 32x32 图像的原因是:

输入是一个 32x32 像素的图像。这明显大于数据库中最大的字符(最多 20x20 像素,以 28x28 字段为中心)。原因是希望潜在的独特特征(例如笔画端点或角)可以出现在最高级别特征检测器的感受野中心。

于 2015-02-15T12:22:19.473 回答