0

我正在开展一个项目,该项目训练 ML 模型以预测 Waldo 在 Where's Wally 中的位置?使用 AWS Sagemaker 的图像,底层对象检测算法为 Single Shot Detection,但我认为使用尺寸为 2000 x 2000 的实际拼图图像作为训练数据是不可能的,SSD 会将图像自动调整为 300 x 300这将使沃尔多变得毫无意义。SSD 会自动调整图像大小,还是会在 2000 x 2000 图像上进行训练?我应该将所有拼图的大小调整为包含 Waldo 的 300 x 300 图像,还是可以包含尺寸为 2000+ x 2000+ 的实际拼图图像和 300 x 300 裁剪图像的混合?

我正在考虑通过在包含 Wally 的位置裁剪这些较大的图像来增强数据,这样我就可以拥有 300 x 300 的图像,其中 Wally 不会在页面上缩小为污迹并且实际上是可见的 - 这是个好主意吗?我认为 SSD 确实在 2000 x 2000 图像上进行训练,但 FPS 会降低很多 - 这是错误的吗?我觉得如果我不使用 2000 x 2000 图像进行训练,在我开始提供大尺寸模型图像(实际拼图图像)的预测阶段,模型将无法准确预测位置 - 是不是这样吗?

4

1 回答 1

0

SageMaker 对象检测根据输入参数“image_shape”调整图像大小,您使用的大小大于 300 x 300。但 2000 x 2000 可能对算法来说太大,而且还会减慢训练速度。您可以尝试在中间的某个位置使用图像大小。将较大的图像裁剪成小块是解决此问题的好主意。对于推理,输入图像也将被调整为与训练参数“image_shape”相同的大小。因此,您可能希望在将大图像发送到端点之前对其进行裁剪或调整大小。

于 2019-04-08T21:23:29.233 回答