我想检测显示器上的数字。为此,我使用了一个自定义的 19 类数据集。选择的模型是 yolov5-X。分辨率为 640x640。一些对象是:
- 0-9 位数
- 一些文本作为对象
- 总计 --> 17 个班级
例如,当我想检测 23、28、22 时,我在检测所有数字时遇到问题。如果它们彼此非常接近,模型就会发现问题。
我正在使用 roboflow 创建不同的文件夹,我在其中添加了一些预处理以完全控制我输入模型的内容。所有内容都经过检查并输入到名为 TRAIN_BASE 的新文件夹中。我总共有 3500 张带有数字的图像,大部分变化是色调和亮度。
有什么建议可以让模型能够捕捉到所有数字,除了彼此靠近吗?