machine-learning - 空间变压器网络中的投资回报率裁剪

翻译自：https://stackoverflow.com/questions/61828494 2020-05-15T21:15:41.813

125 次

TL;DR：Spatial Transformer Network 的 RoI 裁剪方法如何工作？

在阅读 PyTorch Spatial Transformer Network 教程时，我看到该网络使用了一种我以前从未见过的特殊 RoI 池化，称为 RoI 裁剪。
阅读文档F.affine_grid并F.grid_sample没有解释太多那里发生的事情，所以我尝试阅读网络的论文以希望理解以及有关 Faster RCNN的一些博客文章详细说明了图片方法，但仍然没有帮助。
我觉得每个来源都有不同的细节，无法了解那里到底发生了什么，就像我了解正常的 RoI 池和对齐方法一样好。

现在，这是我脑海中的大图：
1. 像往常一样，将建议的 RoI 坐标映射到特征图空间。
2. 将坐标归一化到 [-1, 1] 的范围内（我猜这是为了下面的仿射变换）。
3. 计算（使用下图中的方法）变换值。
4. 现在，我假设我们将转换应用于 RoI 像素？5. 最后，我假设我们对最终坐标进行插值（即双线性插值）。

有人可以简单解释一下 RoI 裁剪方法的整个过程吗？我觉得我可能错过了什么。

machine-learning - 空间变压器网络中的投资回报率裁剪

0 回答 0

Related

Reference