image-processing - 关于最大池化？

Question

最大池在视觉中很有用，原因有两个：

通过消除非最大值，它减少了上层的计算。

它提供了一种平移不变性。想象一下将一个最大池化层与一个卷积层级联起来。有 8 个方向可以将输入图像平移一个像素。如果在 2x2 区域上进行最大池化，则这 8 种可能配置中的 3 种将在卷积层产生完全相同的输出。对于 3x3 窗口上的最大池化，这会跳转到 5/8。

由于它为位置提供了额外的鲁棒性，因此最大池化是一种减少中间表示维数的“智能”方式。

看不懂，什么8 directions意思？什么

“如果在 2x2 区域上进行最大池化，则这 8 种可能配置中的 3 种将在卷积层产生完全相同的输出。对于 3x3 窗口上的最大池化，这将跳转到 5/8。”

意思是？

score 0 · Accepted Answer

有 8 个方向可以将输入图像平移一个像素。

他们正在考虑 2 个水平、2 个垂直和 4 个对角线 1 像素移位。总共有 8 个。

如果在 2x2 区域上进行最大池化，则这 8 种可能配置中的 3 种将在卷积层产生完全相同的输出。对于 3x3 窗口上的最大池化，这会跳转到 5/8。

想象一下，我们在图像的 2x2 区域中取最大值。图像是预卷积的，尽管对于本解释的目的并不重要。

无论最大值在 2x2 区域中的确切位置，都会有 3 种可能的 1 像素平移图像，导致最大值保留在该特定 2x2 区域中。当然，可能会从邻近地区带来更大的价值，但这不是重点。关键是你得到了一些翻译不变性。

对于 3x3 区域，它变得更加复杂，因为在该区域内保持最大值的 1 像素平移的数量取决于最大值所在区域的确切位置。他们提到的 5 个翻译对应于 3x3 像素块中边缘中间的位置。角落位置将提供 3 个翻译，而中心位置将提供全部 8 个翻译。

image-processing - 关于最大池化？

1 回答 1

Related

Reference