我正在研究 HOG 描述符,除了检测窗口的融合之外,我已经完成了大部分部分。
到目前为止我所做的是;我构建了图像的尺度空间金字塔,对于每个尺度上的每个图像,我移动检测窗口(64x128)并检测人类。在每张图像中,一个人被多个窗口检测到。
所以问题是如何将所有这些窗口(假设一个人)融合到一个窗口中。Dalal 建议应该使用稳健的模检测算法,例如均值偏移。但是,我有多个尺度......我是否应该首先估计在尺度空间的较低级别中发现的检测窗口的真实位置才能做到这一点?
任何帮助表示赞赏。提前致谢。