computer-vision - 反卷积和反池化如何导致图像分割？

Question

我正在探索和学习计算机视觉领域，目前正在学习 CNN。我完全理解 CNN 的概念，即直到完全连接层。

但是，当我深入研究图像分割的任务时，我遇到了以下论文：

在这里，他们讨论了卷积和全连接层，然后是反卷积和非池化。我了解反卷积和非池化的数学方面，但我无法理解并且最重要的是无法想象它们最终如何导致图像分割。

score 1 · Accepted Answer

我们的目标：图像分割任务要求您的输出具有输入图像的维度（但使用标签而不是像素颜色）。您可以将其视为多个分类任务（针对每个输入像素）。

典型的分类 CNN 包含一系列卷积/池化，然后是最终将图像映射到“标签空间”的密集层。这不适用于分段。

全卷积网络是一种将图像映射到另一个图像（具有任意数量的通道）的网络，该图像按某些因素（取决于所使用的池化步骤）进行缩放。

如果您避免任何池化，您的输出将与您的输入具有相同的高度/宽度（这是我们的目标）。然而，我们确实希望减小卷积的大小，因为：a）它的计算效率更高（允许我们更深入）b）它有助于在不同尺度上传播信息。

所以我们想减少激活的大小，然后将它们上采样回原始大小。这就是反卷积发挥作用的地方。

U-Net是一种流行的架构，它执行上述操作并使用另一个关键概念：每次上采样时，您将上采样的激活与来自相同大小的前几层。这使您的网络可以保留否则会丢失的精细细节（想象一下，如果您必须将分段上采样 16 倍或可能更多，您会得到什么结果）。

此外，这些连接还有一个次要（但重要）的好处：更好的梯度传播。它们的行为类似于 ResNet 中的跳过连接。

1 回答 1