我有一个大约 20K 图像的数据集,这些图像是人工标记的。标签如下:如果图像清晰且光线充足,则标签 = 1,对于那些模糊/失焦/颗粒状图像,标签 = 0。
图像是身份证等文件。
我想建立一个可以完成分类任务的计算机视觉模型。
我尝试使用 VGG-16 进行迁移学习来完成这项任务,但效果不佳(精度 0.65 和召回率 = .73)。我的感觉是 VGG-16 不适合这项任务。它是在 ImageNet 上训练的,并且具有非常不同的低级特征。有趣的是,该模型是欠拟合的。
我们还尝试了 EfficientNet 7。尽管该模型能够在训练和验证方面表现出色,但测试性能仍然很差。
有人可以建议更合适的模型来尝试这项任务吗?