“我们的系统将输入图像划分为一个 S * S 网格。如果一个物体的中心落入一个网格单元,则该网格单元负责检测该物体。”
这是来自YOLO论文,输入图像被划分为S*S网格,也就是说conv的输出是S*S的大小,对吧?
如果是这样,这些小细胞(7 * 7)如何连接到输入图像的原始区域?我知道 conv 是如何工作的,但是边界框是如何进行回归的呢?
“我们的系统将输入图像划分为一个 S * S 网格。如果一个物体的中心落入一个网格单元,则该网格单元负责检测该物体。”
这是来自YOLO论文,输入图像被划分为S*S网格,也就是说conv的输出是S*S的大小,对吧?
如果是这样,这些小细胞(7 * 7)如何连接到输入图像的原始区域?我知道 conv 是如何工作的,但是边界框是如何进行回归的呢?
原始大小的基本事实将“调整大小”为 SxS,在这种情况下,Yolov1 中为 7x7,Yolov2 中为 13x13 Yolo-pytorch