1

我的图像如下所示:

在此处输入图像描述

我的目标是检测和识别数字31197394。我已经对文本识别的深度神经网络进行了微调。如果以以下格式提供,它可以成功识别正确的号码:

在此处输入图像描述

剩下的唯一任务是检测相应的边界框。为此,我尝试了darknet。不幸的是,它没有识别任何东西。有没有人知道在这类图像上表现更好的网络?我知道,亚马逊识别能够解决这个任务。但我需要一个离线工作的解决方案。所以我仍然寄希望于存在有效的预训练网络。非常感谢你的帮助!

4

3 回答 3

4

不要说暗网不起作用。这取决于您如何标记数据集。确实,您要识别的数字太小,因此如果您在预处理阶段不对图像进行任何更改,那么神经网络很难很好地识别它们。所以你可以做的肯定是:
1--->在标记之前,将所有图像的大小增加2倍其当前大小(如1000 * 1000)
2--->使用这个大小(1000 * 1000)对于darknet trainer,而不是darknet建议的默认大小416 * 416。然后您必须更改配置文件
3--->使用最新的darknet版本(yolo v4)
4--->在配置文件中, 始终保持细分数为 1。
我还指出这种方法在内存中过于贪婪,因此需要提供一台 RAM > 16 GB 的机器。优点是它的工作...

于 2021-05-03T09:43:23.137 回答
1

谢谢你们的回答!你是对的,我必须微调 yolo 才能让它工作。所以我创建了一个数据集并微调了 yolov5。我很惊讶结果有多好。尽管总共只有大约 300 张图像,但我预测正确数字的准确率为 97%。这主要是由于强大的增强。确实内存需求很大,但我可以在 32 GM RAM 机器上进行训练。我真的可以鼓励任何面临类似问题的人给 yolo 一个机会!

于 2021-05-05T09:19:34.180 回答
0

也许使用 R-CNN 来识别数字所在的区域,然后将该区域传递给您的微调神经网络以进行数字分类

于 2021-04-27T14:40:09.700 回答