2

在慢速 R-CNN 论文中,边界框回归的目标是学习将提议的边界框 P 映射到真实框 G 的转换,我们根据四个函数 dx(P),dy(P) 参数化转换,dw(P),dh(P)。

  • 前 2 指定P 的边界框中心的尺度不变平移,而

  • 第二个两个指定P 的边界框相对于对象建议的宽度和高度的对数空间转换

这与 Fast-RCNN 论文中用于 BB 预测的技术相同。!

问题1。谁能帮我理解边界框的尺度不变性和对数空间(两者)的相关性以及这些函数如何捕捉这两个方面?

问题2。上面提到的BB 尺度不变平移与实现尺度不变目标检测(下文解释)有何不同?

我的意思是在快速 R-CNN 中,作者指出以下两种方法可以在目标检测中实现尺度不变性:

  • 首先,蛮力方法,在训练和测试期间,每张图像都以预定义的像素大小进行处理。网络必须直接从训练数据中学习尺度不变的目标检测

  • 第二种方法是使用图像金字塔。

请随时引用研究论文,以便我阅读以深入了解。

4

1 回答 1

2

这些功能的目标dx(P), dy(P), dw(P), dh(P)是从建议框转换为真实框。它们被建模为来自特征映射的池化特征的线性函数,并且它们包含可学习的参数(权重)。

该论文指出,dx(P), dy(P)指定了 P 边界框中心的尺度不变平移,注意是它们指定但不是它们,那么这个平移是什么?翻译看起来像这样:

在此处输入图像描述

要了解什么是尺度不变,我们可以从为什么需要它开始?因为提案 bbox 可以有不同的大小。在下图中,拿着球棒的人和投掷者的提议 bbox 大小不同,两者在 ROI 池化后都将表示为一个固定的相同形状的特征向量(FIXED AND SAME SHAPE!!)。当回归器进行预测时,它只是预测值dx(P)dy(P),而不区分特征向量来自哪个提议 bbox。在将这个值应用到输入图像时,因为我们已经有了提案 bboxes ( Px, Py, Pw, Ph) 提供的信息,所以输入图像中 bboxes 的中心可以通过变换简单地计算出来!(请注意,两个提案都是类人,因此回归量可能相同,否则回归量不同)

在此处输入图像描述

至于后面的两个改造:

在此处输入图像描述

如果你在两边都应用对数变换,你会看到它是:

在此处输入图像描述


dw(P)dh(P)指定一个日志空间翻译!

至于第二个问题,边界框回归是整个检测管道的一部分,仅用于 bbox 回归。除了 bbox 回归之外,目标检测还必须处理图像分类、提案生成等。例如,在提案生成期间应用金字塔图像。

在此处输入图像描述

于 2019-04-09T21:20:30.217 回答