据我所知,CNN 依赖于滑动窗口技术,只能指示给定边界框中的任何地方是否存在某种模式。真的吗?
如果没有任何此类技术的帮助,可以使用 CNN 实现本地化吗?
据我所知,CNN 依赖于滑动窗口技术,只能指示给定边界框中的任何地方是否存在某种模式。真的吗?
如果没有任何此类技术的帮助,可以使用 CNN 实现本地化吗?
那是图像识别中的一个悬而未决的问题。除了滑动窗口,现有的方法包括预测图像中的对象位置作为 CNN 输出、预测边界(将像素分类为是否属于图像边界)等。例如,参见本文和其中的参考资料。
另请注意,使用最大池化的 CNN,可以识别有助于对象识别的特征检测器的位置,并使用它来建议可能的对象位置区域。
最近有一些技术可以定位 CNN 中的对象。见这篇论文http://cnnlocalization.csail.mit.edu/Zhou_Learning_Deep_Features_CVPR_2016_paper.pdf
它使用称为全局平均池化 (GAP) 的层,无需额外工作,CNN 就可以定位它识别的对象。
另请查看这篇非常好的博客文章: https ://alexisbcook.github.io/2017/global-average-pooling-layers-for-object-localization/