1

我正在学习 Viola-James 检测框架,我读到它使用 24x24 碱基检测窗口[1][2]。我在理解这个碱基检测窗口时遇到了问题。假设我有一张 1280x960 像素的图像,里面有 3 个人。当我尝试对此图像执行人脸检测时,算法会:

  1. 将图片缩小到 24x24 像素,
  2. 用 24x24 像素的大部分平铺图片,然后测试每个部分,
  3. 将 24x24 窗口定位在图像的左上角,然后在整个图像区域上移动 1px?

任何帮助表示赞赏,甚至是指向另一个解释的链接。

资料来源:https ://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf

[1] - 第 2 页,积分图像前的最后一段

[2] - 第 4 页,结果

4

2 回答 2

1

我发现这个视频完美地解释了检测窗口如何在图片上移动和缩放。我想画一个流程图,但我认为视频能更好地说明它:

https://vimeo.com/12774628

感谢视频的原作者。

于 2015-08-24T13:20:04.410 回答
1

这个视频有帮助吗?时长 40 分钟。

Adam Harvey 解释 Viola-Jones 人脸检测

该算法也称为 Haar Cascades,在人脸检测中非常流行。

该页面的大约一半是另一个视频,它显示了正在进行的超级慢动作扫描,因此您可以看到窗口如何开始变小(尽管出于演示目的远大于 24x24)并逐像素移动图像,然后在连续较大的正方形部分上一次又一次地进行。在每个阶段,它仍然只查看那些窗口,就好像它们被重新采样为 24x24 大小一样。

您还可以看到它如何快速拒绝其中许多窗口,并将大部分时间花在看起来像人脸的区域,同时计算越来越复杂的比较变得更加严格。这就是“级联”一词发挥作用的地方。

于 2015-08-11T22:11:12.497 回答