performance - 加速 tessearct

Question

我一直在 linux 上使用 tesseract (Ver 3) 从扫描的 pdf 文件中提取文本。整个过程很慢的问题，很慢。例如，提取这个 (http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20 页文档需要 514 秒（8+ 分钟）

转换我使用 Image Magick 转换应用程序的 pdf。在我使用的 set 命令下方。

转换 -density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

请注意，需要 288 dpi，否则 tesseract 无法从我测试的扫描文件中提取文本。

有谁知道我如何在不影响结果质量的情况下加快速度？

score 0 · Accepted Answer

试试VietOCR看看它是否能产生你想要的更快的结果。如果安装了 Ghostscript，它可以接受 PDF。

performance - 加速 tessearct

1 回答 1

Related

Reference