0

“我们的系统将输入图像划分为一个 S * S 网格。如果一个物体的中心落入一个网格单元,则该网格单元负责检测该物体。”

这是来自YOLO论文,输入图像被划分为S*S网格,也就是说conv的输出是S*S的大小,对吧?

如果是这样,这些小细胞(7 * 7)如何连接到输入图像的原始区域?我知道 conv 是如何工作的,但是边界框是如何进行回归的呢?

4

1 回答 1

0

原始大小的基本事实将“调整大小”为 SxS,在这种情况下,Yolov1 中为 7x7,Yolov2 中为 13x13 Yolo-pytorch

于 2018-09-03T21:47:38.407 回答