1

我正在使用 Tesseract OCR 来获取 PDF 文件中的专有数字字符串。PDF 包含:66600O3377.pdf 但 Tesseract 识别:66600Q3377.pdf

输入是一个 TIFF 文件,质量足够好(见截图)。

有没有办法提高 Tesseract 的准确性?我总是可以将 Q 更改为 0,但我担心会出现更多意想不到的错误。

在此处输入图像描述

4

1 回答 1

1

这是在Tesseract 常见问题解答中:

像这样运行 tesseract 命令以仅允许输入图像中的数字:

tesseract imagename outputbase digits
于 2013-12-19T08:37:11.537 回答