0

当我使用 PS 驱动程序打印 PDF 文件,然后使用 ghostscript(pdfwrite 设备)将 PS 文件转换为可搜索的 PDF 时,最终的 pdf 文件出现问题。它变得腐败。在某些情况下,空格字符会消失,而在其他情况下,文本宽度会变得太大,因此文本会与文本重叠。

gs 的设置是 -dNOPAUSE -dBatch -sDEVICE=pdfwrite -dEmbedAllFonts=true -dSubsetFonts=false -sOutputFile=output.pdf input.ps

我想知道当输入文件是pdf时是否是ghostscript无法产生良好的输出。如果我打印一个 word 文档,一切正常!

是否有任何其他解决方案,例如使用 xps 驱动程序并将 xps 文件转换为可搜索的 pdf 文件?有没有可以做到这一点的解决方案?

我使用 gs 9.07。

最好的问候乔

4

1 回答 1

3

您为什么要完成将 PDF 文件打印到 PostScript 文件的步骤?Ghostscript 已经能够接受 PDF 文件作为输入。

这只会增加更多的混乱,它肯定不会增加任何有用的东西。

如果没有看到原始 PDF 文件和驱动程序生成的 PostScript 文件,就无法说出“可能”是什么问题。我的猜测是,处理 PDF 的任何应用程序都没有嵌入字体,或者 PostScript 驱动程序无法将字体转换为适合 PostScript 的字体,导致输出中缺少字体,并且pdfwrite 设备必须用“其他东西”替换丢失的字体。

当输入是 PDF 时,Ghostscript(更准确地说是 pdfwrite 设备)完全有能力生成像样的 PDF 文件,但您的输入不是 PDF,它的 PostScript!

老实说,如果您的原始 PDF 文件不可“搜索”,那么 pdfwrite 生成的 PDF 文件也不太可能,无论您是使用原始 PDF 还是将其修改为 PostScript。

PDF 文件不可“搜索”的常见原因是没有 ToUnicode 信息,字体使用自定义编码进行编码,而 deos 不使用标准字形名称。如果是这种情况,除了 OCR 之外,您无法对 PDF 文件执行任何操作。

于 2013-04-25T13:10:36.383 回答