我从这里的博客文章中得到了下面的图片,它提供了非常丰富的信息。
卷积神经网络
在 RCNN 中,我得到选择性搜索用于选择感兴趣的区域(“建议”),这些区域被传递到一个 convNet 中,该网络可以任意生成一个 4096 维的特征向量。这被传递给 SVM,我们得到一个分类。说得通。
快速RCNN
“我们没有将区域提案提供给 CNN,而是将输入图像提供给 CNN 以生成卷积特征图。从卷积特征图中,我们识别提案区域并将它们扭曲成正方形,并使用 RoI 池化层我们将它们重塑为固定大小,以便可以将其馈入全连接层。”
我分别知道所有这些词;但是像这样把它们放在一起让我很困惑。对于 Fast-RCNN,区别在于 ConvNet 似乎用于生成感兴趣区域,而不是选择性搜索。这是如何运作的?
我目前的理解在第 2/3 步感到困惑,否则我认为我很好:
- 我们有一张图像并将其提供给 CNN。
- CNN 像往常一样通过随机初始化一些过滤器(然后根据错误进行调整)来生成过滤器。
- 在卷积图像堆栈上使用选择性搜索?
- 投资回报率汇集到一个大小。
- Softmax 层决定分类 + LR 得到边界框。
奖励:为什么 RCNN 中的特征向量是 4096 维?只是随机选择的数字?