2

我的问题类似于这个话题。当我开始思考 yolo 算法的输出时,我正在观看 Andrew Ng 的关于边界框预测的讲座。让我们考虑这个例子,我们使用 19x19 的网格和只有一个具有 2 个类的感受野,所以我们的输出将是 => 19x19x1x5。最后一个维度(大小为 5 的数组)表示以下内容:

1) The class (0 or 1)  
2) X-coordinate  
3) Y-coordinate  
4) height of the bounding box  
5) Width of the bounding box

我不明白 X,Y 坐标是表示相对于整个图像大小的边界框,还是只是和感受野(过滤器)。在视频中,边界框被表示为感受野的一部分,但逻辑上感受野比边界框小得多,而且人们可能会修改过滤器的大小,因此相对于过滤器定位边界框是没有意义的。

那么,基本上图像边界框的坐标代表什么?

4

1 回答 1

4

来自了解 YOLO帖子@Hacker Noon:

每个网格单元预测 B 个边界框以及 C 类概率。边界框预测有 5 个分量:(x, y, w, h, confidence)。( x, y)坐标表示盒子的中心,相对于网格单元的位置(请记住,如果盒子的中心不在网格单元内,则该单元不对此负责)。这些坐标被归一化为介于 0 和 1 之间。相对于图像大小, (w, h)框尺寸也被归一化为 [0, 1]。让我们看一个例子:

在此处输入图像描述

于 2018-09-22T13:26:26.690 回答