Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Tesseract OCR 来获取 PDF 文件中的专有数字字符串。PDF 包含:66600O3377.pdf 但 Tesseract 识别:66600Q3377.pdf
输入是一个 TIFF 文件,质量足够好(见截图)。
有没有办法提高 Tesseract 的准确性?我总是可以将 Q 更改为 0,但我担心会出现更多意想不到的错误。
这是在Tesseract 常见问题解答中:
像这样运行 tesseract 命令以仅允许输入图像中的数字:
tesseract imagename outputbase digits