我想知道为什么我们要堆叠多个 resnet 块,而不是像更传统的架构中的多个卷积块?任何代码示例或引用一个都将非常有帮助。
另外,我怎样才能将它转移到像下面这样可以包含每个 resnet 块的自我注意模块的东西?
我想知道为什么我们要堆叠多个 resnet 块,而不是像更传统的架构中的多个卷积块?任何代码示例或引用一个都将非常有帮助。
另外,我怎样才能将它转移到像下面这样可以包含每个 resnet 块的自我注意模块的东西?
在输入图像的高分辨率下对 Resnet 块的输出应用 self-attention 可能会导致内存问题:self-attention 块的内存需求随输入大小(=分辨率)呈二次方增长。这就是为什么在例如Xiaolong Wang、Ross Girshick、Abhinav Gupta、Kaiming He Non-Local Neural Networks (CVPR 2018) 中,他们只在架构的非常深的层引入自我注意,一旦特征图基本上低于采样。