我正在尝试在 Caffe 上训练我自己的网络,类似于 Imagenet 模型。但我对作物层感到困惑。直到我了解 Imagenet 模型中的裁剪层为止,在训练期间它将采用随机 227x227 图像裁剪并训练网络。但是在测试过程中,它将采用中心 227x227 图像裁剪,当我们从 256x256 图像中裁剪中心 227x27 图像时,我们不会丢失图像中的信息吗?第二个问题,我们如何定义训练期间要采取的作物数量?
而且,我训练了相同的网络(相同的层数,相同的卷积大小,FC 神经元会明显不同),第一次从 256x256 图像中裁剪 227x227,第二次从 256x256 图像中裁剪 255x255。根据我的直觉,裁剪为 255x255 的模型应该会给我最好的结果。但是我对 227x227 图像的精度越来越高,谁能解释一下它背后的直觉,还是我做错了什么?