optimization - Tesseract 将 0 识别为 Q

Question

我正在使用 Tesseract OCR 来获取 PDF 文件中的专有数字字符串。PDF 包含：66600O3377.pdf 但 Tesseract 识别：66600Q3377.pdf

输入是一个 TIFF 文件，质量足够好（见截图）。

有没有办法提高 Tesseract 的准确性？我总是可以将 Q 更改为 0，但我担心会出现更多意想不到的错误。

在此处输入图像描述

score 1 · Accepted Answer

像这样运行 tesseract 命令以仅允许输入图像中的数字：

tesseract imagename outputbase digits

1 回答 1