5

我正在研究 HOG 描述符,除了检测窗口的融合之外,我已经完成了大部分部分。

到目前为止我所做的是;我构建了图像的尺度空间金字塔,对于每个尺度上的每个图像,我移动检测窗口(64x128)并检测人类。在每张图像中,一个人被多个窗口检测到。

所以问题是如何将所有这些窗口(假设一个人)融合到一个窗口中。Dalal 建议应该使用稳健的模检测算法,例如均值偏移。但是,我有多个尺度......我是否应该首先估计在尺度空间的较低级别中发现的检测窗口的真实位置才能做到这一点?

任何帮助表示赞赏。提前致谢。

4

1 回答 1

1

我的解释是,平均偏移实际上会给你你的建议。

本质上,您首先根据检测器输出的强度以最粗略的比例估计人员位置的概率分布。这为您提供了对模式的稳健估计。

然后,您可以使用围绕最大值或模式的更精细的比例进行迭代细化。

例如,这个想法与金字塔 LK 跟踪中使用的想法非常相似。您还可以进行集成处理和/或粒子过滤器。

于 2011-05-13T12:19:14.253 回答