-1

最大池在视觉中很有用,原因有两个:

通过消除非最大值,它减少了上层的计算。

它提供了一种平移不变性。想象一下将一个最大池化层与一个卷积层级联起来。有 8 个方向可以将输入图像平移一个像素。如果在 2x2 区域上进行最大池化,则这 8 种可能配置中的 3 种将在卷积层产生完全相同的输出。对于 3x3 窗口上的最大池化,这会跳转到 5/8。

由于它为位置提供了额外的鲁棒性,因此最大池化是一种减少中间表示维数的“智能”方式。

看不懂,什么8 directions意思?什么

“如果在 2x2 区域上进行最大池化,则这 8 种可能配置中的 3 种将在卷积层产生完全相同的输出。对于 3x3 窗口上的最大池化,这将跳转到 5/8。”

意思是?

4

1 回答 1

0

有 8 个方向可以将输入图像平移一个像素。

他们正在考虑 2 个水平、2 个垂直和 4 个对角线 1 像素移位。总共有 8 个。

如果在 2x2 区域上进行最大池化,则这 8 种可能配置中的 3 种将在卷积层产生完全相同的输出。对于 3x3 窗口上的最大池化,这会跳转到 5/8。

想象一下,我们在图像的 2x2 区域中取最大值。图像是预卷积的,尽管对于本解释的目的并不重要。

无论最大值在 2x2 区域中的确切位置,都会有 3 种可能的 1 像素平移图像,导致最大值保留在该特定 2x2 区域中。当然,可能会从邻近地区带来更大的价值,但这不是重点。关键是你得到了一些翻译不变性。

对于 3x3 区域,它变得更加复杂,因为在该区域内保持最大值的 1 像素平移的数量取决于最大值所在区域的确切位置。他们提到的 5 个翻译对应于 3x3 像素块中边缘中间的位置。角落位置将提供 3 个翻译,而中心位置将提供全部 8 个翻译。

于 2017-04-04T19:43:40.843 回答