我已经阅读了几个YOLO
教程,但我发现如果要将图像划分成的每个单元格的锚框是预先确定的,我发现有些难以理解。在我浏览的其中一个指南中,图像被分成13x13 个单元格,并且它表示每个单元格预测5 个锚框(比它大,这是我的第一个问题,因为它还说它会首先检测小块中存在什么物体预测框之前的单元格)。
小细胞如何预测比它更大的对象的锚框。也有人说,每个单元在预测其锚框之前进行分类,如果只有一小部分对象落在单元内,那么小单元如何在不查询相邻单元的情况下对其中的正确对象进行分类
E.g.
假设13 个单元格中的一个只包含一个穿着 T 恤的男子的白色口袋部分,该单元格如何正确分类一个人存在而不与相邻单元格相关联?在尝试定位单个对象时使用普通的 CNN,我知道边界框预测与整个图像相关,所以至少我可以说网络在决定框应该在哪里之前知道图像上各处发生了什么。
PS:我目前对 YOLO 工作原理的看法是,基本上每个单元格都被分配了预先确定的锚框,在每一端都有一个分类器,然后选择每个类别得分最高的框,但我确信它不会在某个地方加起来.
更新:在这个问题上犯了一个错误,它应该是关于如何决定常规边界框而不是锚/先前框。所以我将
@craq
的答案标记为正确,因为这就是根据 YOLO v2 论文决定锚框的方式