0

我有一个包含大约 100 张来自具有表格的文档的图像的数据集,所有表格和签名都已正确注释。我曾经从 tf1 模型 zoo 中训练 Faster RCNN InceptionV2,并且准确度非常完美。我只是想升级到 tf2 模型,我一直在训练以下模型:

Faster R-CNN ResNet50 V1 1024x1024 SSD ResNet50 V1 FPN 640x640 (RetinaNet50) CenterNet Resnet101 V1 FPN 512x512 SSD MobileNet V2 FPNLite 640x640 CenterNet HourGlass104 512x512 Faster R-CNN Inception ResNet V2 640x640

我已经在每一个上训练了大约 200k 步。它们都不能使用与来自 tf1 模型 Zoo 的 Faster RCNN InceptionV2 完美配合的相同数据。当我尝试任何图像时,边界框都不正确,它们的分数不超过 0.2,并且在大多数情况下,分数小于 0.1 或 0.001。我尝试了各种配置组合,例如:

fine_tune_checkpoint_type: "detection"
fine_tune_checkpoint_type: "classification"
fine_tune_checkpoint_type: "fine_tune" , this throws error however

我将训练和测试图像的大小都调整为 1024x1024,这有助于将准确度从 0.01 提高到 0.5,但我仍然看不到 90 年代的 detection_scores,就像它们曾经在 tf1 中一样。最大检测分数:

print('detection_scores max === ', detections['detection_scores'].numpy().max()) 我可以看到它是 0.40230057,通常是这样的数字。

PS 我在同一个模型上尝试了另一个数据集,它似乎有效。在表数据集上,我可以看到损失随着时间的推移而减少,但准确度也在降低,因此,例如,我尝试了 22.ckpt 的图像,检测到的表的得分为 0.7,然后在我尝试训练后更像 100k 步它在 101.ckpt 上,检测已更改,分数为 0.4 或相似。

4

0 回答 0