给定一个维度的特征图MxNxC
(例如,来自 Faster-RCNN 的预测感兴趣区域的输出),如何将空间维度减少到1x1xC
? 即,将特征图减少为总结区域特征的向量之类的量?
我知道1x1
卷积,但这似乎与减少通道的情况有关。Average 和 Max Pooling 也很常用,但是这些方法似乎更适合不太极端的二次采样情况。
显然,人们可以简单地计算空间维度上的平均值,但这似乎相当粗糙。
给定一个维度的特征图MxNxC
(例如,来自 Faster-RCNN 的预测感兴趣区域的输出),如何将空间维度减少到1x1xC
? 即,将特征图减少为总结区域特征的向量之类的量?
我知道1x1
卷积,但这似乎与减少通道的情况有关。Average 和 Max Pooling 也很常用,但是这些方法似乎更适合不太极端的二次采样情况。
显然,人们可以简单地计算空间维度上的平均值,但这似乎相当粗糙。
我推荐使用全局平均池化层。你有 MxNxC 特征图。每个特征图的全局平均池计算平均值。所以特征图变成了一个数字,一组特征图变成了向量。
我推荐这篇文章作为探索全局平均池化层的起点。
https://alexisbcook.github.io/2017/global-average-pooling-layers-for-object-localization/