image-processing - 定向梯度直方图

Question

我一直在阅读有关用于对象（人类）检测的 HOG 描述符的理论。但是我对实现有一些疑问，这听起来可能是一个无关紧要的细节。

关于包含块的窗口；窗口是否应该逐个像素地移动到图像上，在每个步骤中窗口重叠，如下所示：在此处输入图像描述

或者应该移动窗口而不引起任何重叠，如下所示：在此处输入图像描述

到目前为止，我看到的插图使用了第二种方法。但是，考虑到检测窗口的大小为 64x128，通过在图像上滑动窗口，很可能无法覆盖整个图像。如果图像大小为 64x255，则不会检查最后 127 个像素是否有对象。所以，第一种方法似乎更合理，但是，更多的时间和 CPU 消耗。

有任何想法吗？先感谢您。

编辑：我尽量坚持 Dalal 和 Triggs 的原始论文。可以在此处找到实现该算法并使用第二种方法的一篇论文：http ://www.cs.bilkent.edu.tr/~cansin/projects/cs554-vision/pedestrian-detection/pedestrian-detection-paper.pdf

score 4 · Accepted Answer

编辑：对不起 - 我误解了你的问题。（另外，我对错误问题的回答是错误的——我已经根据上下文对其进行了调整。）

您问的是使用HOG 描述符进行检测，而不是生成HOG 描述符。

在您上面引用的实施文件中，看起来它们与检测窗口重叠。窗口大小为 64x128，而他们使用 32 像素的水平步幅和 64 像素的垂直步幅。他们还提到他们尝试了更小的步幅值，但这导致了更高的误报率（在他们的实施情况下）。

最重要的是，他们使用输入图像的 3 个比例：1、1/2 和 1/4。他们没有提到检测窗口的任何相应缩放——我不确定从检测的角度来看会产生什么影响。似乎这也会隐含地产生重叠。

原始答案（已更正）：

查看 Dalal 和 Triggs 的论文（在第 6.4 节中），看起来他们提到 i）没有块重叠，以及 ii）在生成 HOG 描述符时有一半和四分之一块重叠。根据他们的结果，听起来更大的重叠会产生更好的检测性能（尽管资源/处理成本更高）。

1 回答 1