computer-vision - RetinaNet 特征图维度问题

Question

我已经阅读了很多关于对象检测的内容，特别是在 RetinaNet 上。但是这部分的实现对我来说不是那么清楚。

据说，所有金字塔级别的特征图都传递给权重共享子网络，用于分类和边界框回归。

但是，当子网络的权重在所有金字塔级别共享时，这怎么可能呢？输出将具有不同的维度，因为据我了解，如果我没记错的话，每个子网络的最后一层都与输出完全连接。在原始论文中没有澄清。这里是否发生了一些零填充？

在 Faster-RCNN 架构中，ROI 池化层用于解决这个维度问题，但在这种情况下我迷路了。

score 0 · Accepted Answer

所有子网络都是完全卷积的（带有标准的零填充）。他们不关心图像尺寸（高度和宽度）。

通道维度通过 FPN 结构保持不变。那部分不是重量分担的。

1 回答 1