我正在使用 ghostscript 和 tesseract 从扫描的 PDF 中提取文本数据。但是 pdf 某些部分的扫描结果并不准确。出于测试目的,我正在截取 pdf 的屏幕截图并将其传递给 tesseract。以下是我面临的场景和问题。
场景一:
截图链接:https ://dl.dropbox.com/u/9409594/scenario_1.tif
一旦我将此图像(来自 125% 缩放 pdf 的屏幕截图)传递给 tesseract,以下是我得到的结果文本:
ART\CLE 标准编号 PFUCE
场景二:
截图链接:https ://dl.dropbox.com/u/9409594/scenario_2.tif
如果我将上面的屏幕截图(300% 缩放)传递给 tesseract,结果很好。
文章编号
以下是我在 ghostscript 和 tesseract 中使用的参数:
Ghostscript: gswin64.exe -dNOPAUSE -dBATCH -dSAFER -sDEVICE=tifflzw -r600 -sOutputFile="C:\test\output.tiff" "C:\test\input.pdf"
正方体: tesseract.exe "c:\test\output.tif" "c:\test\output.html" -l eng -psm 6 hocr
根据我的测试,我觉得如果将图像的缩放版本传递给 tesseract,结果是好的。在将图像转换为图像之前,我可以使用 ghostscript 缩放图像吗?还是有更好的方法来做到这一点?
感谢您的时间和帮助!