0

我正在使用 ghostscript 和 tesseract 从扫描的 PDF 中提取文本数据。但是 pdf 某些部分的扫描结果并不准确。出于测试目的,我正在截取 pdf 的屏幕截图并将其传递给 tesseract。以下是我面临的场景和问题。

场景一:

截图链接:https ://dl.dropbox.com/u/9409594/scenario_1.tif

一旦我将此图像(来自 125% 缩放 pdf 的屏幕截图)传递给 tesseract,以下是我得到的结果文本:

ART\CLE 标准编号 PFUCE

场景二:

截图链接:https ://dl.dropbox.com/u/9409594/scenario_2.tif

如果我将上面的屏幕截图(300% 缩放)传递给 tesseract,结果很好。

文章编号

以下是我在 ghostscript 和 tesseract 中使用的参数:

Ghostscript: gswin64.exe -dNOPAUSE -dBATCH -dSAFER -sDEVICE=tifflzw -r600 -sOutputFile="C:\test\output.tiff" "C:\test\input.pdf"

正方体: tesseract.exe "c:\test\output.tif" "c:\test\output.html" -l eng -psm 6 hocr

根据我的测试,我觉得如果将图像的缩放版本传递给 tesseract,结果是好的。在将图像转换为图像之前,我可以使用 ghostscript 缩放图像吗?还是有更好的方法来做到这一点?

感谢您的时间和帮助!

4

1 回答 1

0

你可以试试这个, http://www.fmwconcepts.com/imagemagick/textcleaner/index.php

您可能知道这一点,与截屏有关,而不是截屏,您可以尝试使用 imagemagik 的转换命令将 pdf 转换为 tif,或者如果它的多页 pdf 使用 pdftoppm,然后使用转换命令转换为 tif。

于 2013-06-30T17:13:32.933 回答