我正在开展一个项目,该项目训练 ML 模型以预测 Waldo 在 Where's Wally 中的位置?使用 AWS Sagemaker 的图像,底层对象检测算法为 Single Shot Detection,但我认为使用尺寸为 2000 x 2000 的实际拼图图像作为训练数据是不可能的,SSD 会将图像自动调整为 300 x 300这将使沃尔多变得毫无意义。SSD 会自动调整图像大小,还是会在 2000 x 2000 图像上进行训练?我应该将所有拼图的大小调整为包含 Waldo 的 300 x 300 图像,还是可以包含尺寸为 2000+ x 2000+ 的实际拼图图像和 300 x 300 裁剪图像的混合?
我正在考虑通过在包含 Wally 的位置裁剪这些较大的图像来增强数据,这样我就可以拥有 300 x 300 的图像,其中 Wally 不会在页面上缩小为污迹并且实际上是可见的 - 这是个好主意吗?我认为 SSD 确实在 2000 x 2000 图像上进行训练,但 FPS 会降低很多 - 这是错误的吗?我觉得如果我不使用 2000 x 2000 图像进行训练,在我开始提供大尺寸模型图像(实际拼图图像)的预测阶段,模型将无法准确预测位置 - 是不是这样吗?