1

我正在使用 ghostscript 8.71 从 PDF 页面中提取文本。

我正在使用的命令是:

gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
         -dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1  \
         -dLastPage=1 input.pdf -dQUIET

我正在使用<stdout>将文本定向到另一个文件。

但问题是 Ghostscript 无法提取一些可搜索的文本项。

某些字体文本未提取,例如:粗体字 Verdana。但是 Ghostscript 正在打开字体文件。

我可以上传 PDF 文件,但在这里我没有找到任何上传选项。如果有任何选项可用,请告诉我。

4

1 回答 1

0

您是否也尝试过其他命令行工具来提取文本,例如pdftotext从 XPDF 包中提取文本?这些如何比较?

您能否详细说明您的输出中究竟缺少什么?只是某些类型的字符、某些字体、某些页面?

此外,您将 Linux/Unix 语法 ( "gs") 与 Windows 语法 ( "c:\fonts") 混合在一起。在 Windows 系统上,托管字体的默认位置通常是c: \Windows \fonts ...

哦,是的:查看有问题的 PDF 文件肯定会有所帮助。

于 2010-09-01T22:42:07.353 回答