2

每个人。

我试图理解“使用经过判别训练的基于部件的模型进行对象检测”。

由于物体(如手)表现出显着的视点变化,因此作者开发了混合模型来处理这个问题。请参见图 1 作为说明。 在此处输入图像描述

图 1. 使用 2 组件自行车模型获得的检测。这些例子说明了变形混合模型的重要性。在此模型中,第一个组件捕获自行车的侧面视图,而第二个组件捕获正面和近正面视图。侧向组件可以变形以匹配“车轮”。

我对如何使用这种混合模型来检测物体有一些疑问。相关描述见第 3.3 节。作者说:“为了使用混合模型检测对象,我们使用上述匹配算法来查找根位置,从而为每个组件独立产生高分假设。” 这是否意味着使用每个组件独立查找对象?以 2 组件自行车模型为例,我们将使用每个组件独立检测图像中的自行车?

对于论文的训练部分,根据我的理解,训练数据由带有标记边界框的图像组成。请看图2。 在此处输入图像描述 图2,左边是训练图像的例子。右侧是训练的结果,包括模型结构、过滤器和变形成本。我的问题是模型的可变形部分的数量是通过训练还是设置高级实现的?例如,图 2 中的人物模型有 5 个可变形部分。5号是不是通过训练得到的?

我也尝试通过阅读作者的源代码来寻找答案。我检查了所有训练过的模型,如汽车、人、鸟、瓶子等。在这些文件中,有一个名为“filters”的字段,它是一个大小为 1 x 54 的结构数组。据我了解,这54个过滤器是根过滤器和部分过滤器。我对吗?我对54的数字感到困惑?如何获得这个号码?在这 54 个过滤器中,哪一个是根过滤器,哪一个是部分过滤器?

我将在本周五介绍你的论文。如果可能的话,您能帮我在那天之前回复这封电子邮件吗?我知道这个要求有点粗鲁。:-)。无论如何,非常感谢。

4

0 回答 0