0

我有一些仅包含数字的产品标签样本。但是我设法处理了这些图像,以便我可以使用这些图像来识别数字。我使用了经过英语训练的数据文件,但结果非常糟糕。有没有办法可以使用模板图像训练数据集。

我已经参考了训练 tesseract 的文档,但我无法使用这些图像进行训练。

但是在拥有盒子文件之后,我该如何制作 eng.traineddata。

有人可以帮帮我吗。

这是产品标签的裁剪原始图像http://imgur.com/hNNlX9g

这是产品标签的处理图像http://imgur.com/Kzxtu0M

4

2 回答 2

0

您可以尝试设置要识别的字符白名单(在您的情况下为数字)。该参数称为tessedit_char_whitelist。老实说,结果可能喜忧参半。

于 2013-10-29T23:56:20.453 回答
0

如果您有支持它的训练数据集,则只能使用白名单。如果您想要快速的结果,请使用 Tesseract 3.x,应该有大量支持白名单的训练数据可用(效果很棒)。

我自己使用 Tesseract 4 和一个经过训练的数据,它与以下选项非常有效: -l 数字 --psm 10

有关数据集的链接,请参阅此帖子:Can not find Tesseract 4.0 tessdata only for Numbers

于 2019-02-05T07:33:10.517 回答