0

有人说inception在ImageNet数据集上效果很好的原因是:ImageNet数据集中的原始图像分辨率不同,使用的时候resize到相同大小。所以能处理不同分辨率的inception非常适合ImageNet。这个描述是否属实?谁能给出更详细的解释?我对此感到非常困惑。非常感谢!

4

1 回答 1

0

首先,深度卷积神经网络,接收固定输入图像大小(如果按大小,您的意思是像素数),因此所有图像应该具有相同的大小或维度,这意味着相同的分辨率。另一方面,如果图像分辨率高且细节很多,则任何网络的结果都会变得更好。Imagnet 图像是来自 fliker 的高分辨率图像,并且调整主题大小不需要插值,因此调整大小的图像保持良好的形状。

其次,inception模块的主要目标是降维,这意味着如果我们有1X1卷积,那么维度计算中的系数是ONE:

output_dim = (input_dim + 2 * pad_data[i] - kernel_extent) / stride_data[i] + 1;

Inception 或换句话说 GoogLeNet,网络很大(超过 100 层),许多 CPU 甚至 GPU 在计算上不可能通过所有卷积,因此它需要降维。

你可以在 Imagnet 数据集中使用更深的 AlexNet(具有更多层),我敢打赌它会给你一个很好的结果,但是当你想深入到 30 层以上时,你应该有一个很好的策略,比如 Inception。顺便说一下,Imagnet数据集在深度网络中有超过 500 万张图像(我上次检查过)more image == more accuracy

于 2017-07-24T18:22:50.783 回答