ImageNet 图像都是不同大小的,但神经网络需要固定大小的输入。
一种解决方案是采用与图像一样大的裁剪尺寸,以图像的中心点为中心。这可行,但有一些缺点。图像中感兴趣对象的重要部分经常被切掉,甚至在某些情况下,正确的对象完全丢失,而属于不同类别的另一个对象可见,这意味着您的模型将针对该图像进行错误的训练.
另一种解决方案是使用整个图像并将其零填充到每个图像具有相同尺寸的位置。不过,这似乎会干扰训练过程,并且模型将学会在图像边缘附近寻找垂直/水平的黑色斑块。
一般是做什么的?
ImageNet 图像都是不同大小的,但神经网络需要固定大小的输入。
一种解决方案是采用与图像一样大的裁剪尺寸,以图像的中心点为中心。这可行,但有一些缺点。图像中感兴趣对象的重要部分经常被切掉,甚至在某些情况下,正确的对象完全丢失,而属于不同类别的另一个对象可见,这意味着您的模型将针对该图像进行错误的训练.
另一种解决方案是使用整个图像并将其零填充到每个图像具有相同尺寸的位置。不过,这似乎会干扰训练过程,并且模型将学会在图像边缘附近寻找垂直/水平的黑色斑块。
一般是做什么的?
有几种方法:
你可以看看最新的 ImageNet 网络是如何训练的,比如 VGG 和 ResNet。他们通常会详细描述此步骤。