我的问题类似于这个话题。当我开始思考 yolo 算法的输出时,我正在观看 Andrew Ng 的关于边界框预测的讲座。让我们考虑这个例子,我们使用 19x19 的网格和只有一个具有 2 个类的感受野,所以我们的输出将是 => 19x19x1x5。最后一个维度(大小为 5 的数组)表示以下内容:
1) The class (0 or 1)
2) X-coordinate
3) Y-coordinate
4) height of the bounding box
5) Width of the bounding box
我不明白 X,Y 坐标是表示相对于整个图像大小的边界框,还是只是和感受野(过滤器)。在视频中,边界框被表示为感受野的一部分,但逻辑上感受野比边界框小得多,而且人们可能会修改过滤器的大小,因此相对于过滤器定位边界框是没有意义的。
那么,基本上图像边界框的坐标代表什么?