我一直在 linux 上使用 tesseract (Ver 3) 从扫描的 pdf 文件中提取文本。整个过程很慢的问题,很慢。例如,提取这个 (http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf) 20 页文档需要 514 秒(8+ 分钟)
转换我使用 Image Magick 转换应用程序的 pdf。在我使用的 set 命令下方。
转换 -density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif
tesseract tmp.tif out.txt
请注意,需要 288 dpi,否则 tesseract 无法从我测试的扫描文件中提取文本。
有谁知道我如何在不影响结果质量的情况下加快速度?