2

许多现有的 Tensorflow 和 Keras CNN 代码示例使用相同的尺寸来训练图像,通常是 299*299、244*244、256*256 等等。我认为这部分取决于与预训练模型的兼容性,以及架构本身。

我仍在评估架构,但最终可能会使用 Resnet、Inception 或 Xception 以及 Tensorflow 或 Keras 使用 Mask R-CNN(或者可能是 Faster R-CNN)。要分析的目标图像在 1024*1024 范围内,但可以分成更小的分区。

鉴于可用的预训练模型,是否存在可以提供任何优势的训练图像大小?我想避免事后调整大小,因为在某些情况下这会降低图像的清晰度。

4

2 回答 2

2

好的,我找到了部分答案:

Girshick 的 Faster R-CNN 显然对输入图像进行了内部缩放,使其较短的尺寸为 600 像素,但较大的边缘被限制在 1000 像素。听起来这是由于可用 GPU 的内存限制所致。

鉴于图像缩放会影响 CPU,并且还会导致一些边缘混叠,似乎在图像预处理方面可能有优势。

我还没有找到 Mask R-CNN 的等效信息。

于 2017-12-25T09:23:17.507 回答
0

根据可以在这里找到的 Matterport 的实现https://github.com/matterport/Mask_RCNN ,图像的输入大小为 1024x1024。此外,他们在论文中提到他们使用 1024 像素作为运行城市景观的输入(我相信请查看附录 b)。

于 2020-11-03T20:29:30.177 回答