1

我一直在 linux 上使用 tesseract (Ver 3) 从扫描的 pdf 文件中提取文本。整个过程很慢的问题,很慢。例如,提取这个 (http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20 页文档需要 514 秒(8+ 分钟)

转换我使用 Image Magick 转换应用程序的 pdf。在我使用的 set 命令下方。

转换 -density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

请注意,需要 288 dpi,否则 tesseract 无法从我测试的扫描文件中提取文本。

有谁知道我如何在不影响结果质量的情况下加快速度?

4

1 回答 1

0

试试VietOCR看看它是否能产生你想要的更快的结果。如果安装了 Ghostscript,它可以接受 PDF。

于 2011-05-20T02:57:09.013 回答