0

在为 RGB 图像定义分割网络时,例如 mxnet 上 fcn-xs 示例中的网络,输入的 RGB 图像层被馈送到多个卷积、激活、池化等...

例如卷积定义如下: mxnet.symbol.Convolution(data=input, kernel=(3, 3), pad=(1, 1), num_filter=64, workspace=workspace_default, name="conv1_1")

一方面,这里的卷积过滤器是 2D 的,这意味着每个颜色层 R、G、B 都是单独处理的。另一方面,从神经科学中众所周知,相关特征包含在颜色对比度中,而不是颜色通道本身中,即颜色应该相互减去,例如红色减去绿色或蓝色减去黄色。

如何通过网络结构强制执行?RGB 分量是如何混合和组合的?

4

1 回答 1

2

原来mxnet中的卷积是3D的:前两个维度反映图像坐标,而第三个维度反映深度,即特征空间的维度。对于输入层的 RGB 图像,深度为 3(除非它是深度 ==1 的灰度图像)。对于任何其他层,深度是特征(过滤器)的数量。

因此不需要明确指定沿深度维度的卷积,它总是(隐式)假设的。因此,可以提取涉及来自多个通道的数据的颜色对比度和其他特征。例如,将水平和垂直特征相加可以产生角检测器......

于 2017-02-12T12:27:40.373 回答