ROIPooling 层通常用于对象检测网络,例如R-CNN及其变体(Fast R-CNN和Faster R-CNN)。所有这些架构的基本部分是生成区域建议的组件(神经或经典 CV)。这些区域建议基本上是需要输入 ROIPooling 层的 ROI。ROIPooling 层的输出将是一批张量,其中每个张量代表图像的一个裁剪区域。这些张量中的每一个都被独立处理以进行分类。例如,在 R-CNN 中,这些张量是 RGB 图像的裁剪,然后通过分类网络运行。在 Fast R-CNN 和 Faster R-CNN 中,张量是卷积网络中的特征,例如 ResNet34。
在您的示例中,无论是通过经典的计算机视觉算法(如在 R-CNN 和 Fast R-CNN 中)还是使用区域建议网络(如在 Faster R-CNN 中),您都需要生成一些作为包含对象的候选对象的 ROI出于兴趣。一旦在一个 mini-batch 中为每个图像获得了这些 ROI,您就需要将它们组合成一个[[batch_index, x1, y1, x2, y2]]
. 这种尺寸标注的意思是,您基本上可以拥有任意数量的 ROI,并且对于每个 ROI,您必须指定要裁剪的批次中的哪个图像(因此是batch_index
)以及要裁剪的坐标(因此是(x1, y1)
左上角的-corner 和(x2,y2)
右下角坐标)。
因此,基于上述内容,如果您要实现类似于 R-CNN 的东西,您会将图像直接传递到 RoiPooling 层:
class ClassifyObjects(gluon.HybridBlock):
def __init__(self, num_classes, pooled_size):
super(ClassifyObjects, self).__init__()
self.classifier = gluon.model_zoo.vision.resnet34_v2(classes=num_classes)
self.pooled_size = pooled_size
def hybrid_forward(self, F, imgs, rois):
return self.classifier(
F.ROIPooling(
imgs, rois, pooled_size=self.pooled_size, spatial_scale=1.0))
# num_classes are 10 categories plus 1 class for "no-object-in-this-box" category
net = ClassifyObjects(num_classes=11, pooled_size=(64, 64))
# Initialize parameters and overload pre-trained weights
net.collect_params().initialize()
pretrained_net = gluon.model_zoo.vision.resnet34_v2(pretrained=True)
net.classifier.features = pretrained_net.features
现在如果我们通过网络发送虚拟数据,您可以看到如果 roi 数组包含 4 个 rois,则输出将包含 4 个分类结果:
# Dummy forward pass through the network
imgs = x = nd.random.uniform(shape=(2, 3, 128, 128)) # shape is (batch_size, channels, height, width)
rois = nd.array([[0, 10, 10, 100, 100], [0, 20, 20, 120, 120],
[1, 15, 15, 110, 110], [1, 25, 25, 128, 128]])
out = net(imgs, rois)
print(out.shape)
输出:
(4, 11)
但是,如果您想使用 ROIPooling 与 Fast R-CNN 或 Faster R-CNN 模型类似,则需要在平均池化之前访问网络的特征。然后这些特征在被传递到分类之前被 ROIPooled。这里是一个示例,其中特征来自预训练网络,ROIPoolingpooled_size
是 4x4,在 ROIPooling 之后使用简单的 GlobalAveragePooling 和 Dense 层进行分类。请注意,由于图像通过 ResNet 网络最大池化了 32 倍,spatial_scale
因此设置为1.0/32
让 ROIPooling 层自动补偿 rois。
def GetResnetFeatures(resnet):
resnet.features._children.pop() # Pop Flatten layer
resnet.features._children.pop() # Pop GlobalAveragePooling layer
return resnet.features
class ClassifyObjects(gluon.HybridBlock):
def __init__(self, num_classes, pooled_size):
super(ClassifyObjects, self).__init__()
# Add a placeholder for features block
self.features = gluon.nn.HybridSequential()
# Add a classifier block
self.classifier = gluon.nn.HybridSequential()
self.classifier.add(gluon.nn.GlobalAvgPool2D())
self.classifier.add(gluon.nn.Flatten())
self.classifier.add(gluon.nn.Dense(num_classes))
self.pooled_size = pooled_size
def hybrid_forward(self, F, imgs, rois):
features = self.features(imgs)
return self.classifier(
F.ROIPooling(
features, rois, pooled_size=self.pooled_size, spatial_scale=1.0/32))
# num_classes are 10 categories plus 1 class for "no-object-in-this-box" category
net = ClassifyObjects(num_classes=11, pooled_size=(4, 4))
# Initialize parameters and overload pre-trained weights
net.collect_params().initialize()
net.features = GetResnetFeatures(gluon.model_zoo.vision.resnet34_v2(pretrained=True))
现在如果我们通过网络发送虚拟数据,您可以看到如果 roi 数组包含 4 个 rois,则输出将包含 4 个分类结果:
# Dummy forward pass through the network
# shape of each image is (batch_size, channels, height, width)
imgs = x = nd.random.uniform(shape=(2, 3, 128, 128))
# rois is the output of region proposal module of your architecture
# Each ROI entry contains [batch_index, x1, y1, x2, y2]
rois = nd.array([[0, 10, 10, 100, 100], [0, 20, 20, 120, 120],
[1, 15, 15, 110, 110], [1, 25, 25, 128, 128]])
out = net(imgs, rois)
print(out.shape)
输出:
(4, 11)