image-processing - 带有 tesseract 缩放选项的 ghostscript

Question

我正在使用 ghostscript 和 tesseract 从扫描的 PDF 中提取文本数据。但是 pdf 某些部分的扫描结果并不准确。出于测试目的，我正在截取 pdf 的屏幕截图并将其传递给 tesseract。以下是我面临的场景和问题。

场景一：

截图链接：https ://dl.dropbox.com/u/9409594/scenario_1.tif

一旦我将此图像（来自 125% 缩放 pdf 的屏幕截图）传递给 tesseract，以下是我得到的结果文本：

ART\CLE 标准编号 PFUCE

场景二：

截图链接：https ://dl.dropbox.com/u/9409594/scenario_2.tif

如果我将上面的屏幕截图（300% 缩放）传递给 tesseract，结果很好。

文章编号

以下是我在 ghostscript 和 tesseract 中使用的参数：

Ghostscript： gswin64.exe -dNOPAUSE -dBATCH -dSAFER -sDEVICE=tifflzw -r600 -sOutputFile="C:\test\output.tiff" "C:\test\input.pdf"

正方体： tesseract.exe "c:\test\output.tif" "c:\test\output.html" -l eng -psm 6 hocr

根据我的测试，我觉得如果将图像的缩放版本传递给 tesseract，结果是好的。在将图像转换为图像之前，我可以使用 ghostscript 缩放图像吗？还是有更好的方法来做到这一点？

感谢您的时间和帮助！

score 0 · Accepted Answer

您可能知道这一点，与截屏有关，而不是截屏，您可以尝试使用 imagemagik 的转换命令将 pdf 转换为 tif，或者如果它的多页 pdf 使用 pdftoppm，然后使用转换命令转换为 tif。

1 回答 1