object-detection - 在 AWS Sagemaker 中使用大尺寸图像（例如 2000 x 2000）作为训练数据时，它们是否会自动缩放到 300 x 300？

Question

我正在开展一个项目，该项目训练 ML 模型以预测 Waldo 在 Where's Wally 中的位置？使用 AWS Sagemaker 的图像，底层对象检测算法为 Single Shot Detection，但我认为使用尺寸为 2000 x 2000 的实际拼图图像作为训练数据是不可能的，SSD 会将图像自动调整为 300 x 300这将使沃尔多变得毫无意义。SSD 会自动调整图像大小，还是会在 2000 x 2000 图像上进行训练？我应该将所有拼图的大小调整为包含 Waldo 的 300 x 300 图像，还是可以包含尺寸为 2000+ x 2000+ 的实际拼图图像和 300 x 300 裁剪图像的混合？

我正在考虑通过在包含 Wally 的位置裁剪这些较大的图像来增强数据，这样我就可以拥有 300 x 300 的图像，其中 Wally 不会在页面上缩小为污迹并且实际上是可见的 - 这是个好主意吗？我认为 SSD 确实在 2000 x 2000 图像上进行训练，但 FPS 会降低很多 - 这是错误的吗？我觉得如果我不使用 2000 x 2000 图像进行训练，在我开始提供大尺寸模型图像（实际拼图图像）的预测阶段，模型将无法准确预测位置 - 是不是这样吗？

score 0 · Accepted Answer

SageMaker 对象检测根据输入参数“image_shape”调整图像大小，您使用的大小大于 300 x 300。但 2000 x 2000 可能对算法来说太大，而且还会减慢训练速度。您可以尝试在中间的某个位置使用图像大小。将较大的图像裁剪成小块是解决此问题的好主意。对于推理，输入图像也将被调整为与训练参数“image_shape”相同的大小。因此，您可能希望在将大图像发送到端点之前对其进行裁剪或调整大小。

object-detection - 在 AWS Sagemaker 中使用大尺寸图像（例如 2000 x 2000）作为训练数据时，它们是否会自动缩放到 300 x 300？

1 回答 1

Related

Reference