image - 如何训练 tesseract 只识别数字

Question

我有一些仅包含数字的产品标签样本。但是我设法处理了这些图像，以便我可以使用这些图像来识别数字。我使用了经过英语训练的数据文件，但结果非常糟糕。有没有办法可以使用模板图像训练数据集。

我已经参考了训练 tesseract 的文档，但我无法使用这些图像进行训练。

但是在拥有盒子文件之后，我该如何制作 eng.traineddata。

有人可以帮帮我吗。

这是产品标签的裁剪原始图像http://imgur.com/hNNlX9g

这是产品标签的处理图像http://imgur.com/Kzxtu0M

score 0 · Accepted Answer

您可以尝试设置要识别的字符白名单（在您的情况下为数字）。该参数称为tessedit_char_whitelist。老实说，结果可能喜忧参半。

score 0 · Accepted Answer

如果您有支持它的训练数据集，则只能使用白名单。如果您想要快速的结果，请使用 Tesseract 3.x，应该有大量支持白名单的训练数据可用（效果很棒）。

我自己使用 Tesseract 4 和一个经过训练的数据，它与以下选项非常有效： -l 数字 --psm 10

2 回答 2