TL;DR:Spatial Transformer Network 的 RoI 裁剪方法如何工作?
在阅读 PyTorch Spatial Transformer Network 教程时,我看到该网络使用了一种我以前从未见过的特殊 RoI 池化,称为 RoI 裁剪。
阅读文档F.affine_grid
并F.grid_sample
没有解释太多那里发生的事情,所以我尝试阅读网络的论文以希望理解以及有关 Faster RCNN的一些博客文章详细说明了图片方法,但仍然没有帮助。
我觉得每个来源都有不同的细节,无法了解那里到底发生了什么,就像我了解正常的 RoI 池和对齐方法一样好。
现在,这是我脑海中的大图:
1. 像往常一样,将建议的 RoI 坐标映射到特征图空间。
2. 将坐标归一化到 [-1, 1] 的范围内(我猜这是为了下面的仿射变换)。
3. 计算(使用下图中的方法)变换值。
4. 现在,我假设我们将转换应用于 RoI 像素?5. 最后,我假设我们对最终坐标进行插值(即双线性插值)。
有人可以简单解释一下 RoI 裁剪方法的整个过程吗?我觉得我可能错过了什么。