OpenCV Haar 级联分类器似乎使用 24x24 人脸图像作为其正向训练数据。我对此有两个问题:
- 除了更大的训练图像需要更多的处理之外,选择训练图像大小的考虑因素是什么?
- 对于非方形图像,有些人选择将一个维度保持在 24 像素,并根据需要扩展另一个维度(例如 100-200 像素)。这是正确的策略吗?
- 如何决定训练图像的大小(这是问题 1 的变体)
OpenCV Haar 级联分类器似乎使用 24x24 人脸图像作为其正向训练数据。我对此有两个问题:
老实说,我相信有比图像大小更好的参数需要调整。即便如此,这是一个从精细到粗略的检测问题——在更精细的级别上,您可以获得细节,在更粗略的级别上,您可以获得结构。此外,还有一个权衡:对于 24x24 检测区域,大约有 160,000 个可能的矩形(类似 haar)特征,因此增加或减少也会影响训练/测试的这个数字(这就是为什么使用 boosting 来选择一个判别特征的小子集)。
正如您所说,这是因为他的目标不同(即笔)。我认为在级联训练中引入先验纵横比信息是明智的,否则您将获得具有用于笔检测器的方形边界框的检测,并且可能会在性能上受到影响,因为训练阶段正在拾取周围更大的背景区域笔。
请参阅我的第一个答案。我认为这主要是经验性的。有一些用于特征缩放或构建图像金字塔的技术(例如,参见这项工作)也降低了高度控制训练目标图像大小选择的有用性。