我一直在阅读有关用于对象(人类)检测的 HOG 描述符的理论。但是我对实现有一些疑问,这听起来可能是一个无关紧要的细节。
关于包含块的窗口;窗口是否应该逐个像素地移动到图像上,在每个步骤中窗口重叠,如下所示:
或者应该移动窗口而不引起任何重叠,如下所示:
到目前为止,我看到的插图使用了第二种方法。但是,考虑到检测窗口的大小为 64x128,通过在图像上滑动窗口,很可能无法覆盖整个图像。如果图像大小为 64x255,则不会检查最后 127 个像素是否有对象。所以,第一种方法似乎更合理,但是,更多的时间和 CPU 消耗。
有任何想法吗?先感谢您。
编辑:我尽量坚持 Dalal 和 Triggs 的原始论文。可以在此处找到实现该算法并使用第二种方法的一篇论文:http ://www.cs.bilkent.edu.tr/~cansin/projects/cs554-vision/pedestrian-detection/pedestrian-detection-paper.pdf