我正在使用 Ghostscript 通过命令行将 PDF 转换为 PDF/A:
gs -dPDFA -dBATCH -dNOPAUSE -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile="output.pdf" input.pdf
但是输出文件丢失了可搜索的文本属性。
如何获得可搜索的 PDF/A 文件作为输出?
谢谢。
我正在使用 Ghostscript 通过命令行将 PDF 转换为 PDF/A:
gs -dPDFA -dBATCH -dNOPAUSE -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile="output.pdf" input.pdf
但是输出文件丢失了可搜索的文本属性。
如何获得可搜索的 PDF/A 文件作为输出?
谢谢。
您没有提供要查看的输入文件,也没有提到您使用的是哪个版本的 Ghostscript。
让我从我关于这个主题的标准讲座开始;当您将 PDF 文件作为输入并使用 Ghostscript 的 pdfwrite 设备生成新的 PDF 文件时,您不是在“转换”、“编辑”或“修改”输入文件。
发生的情况是 PDF 解释器解释 PDF 文件,并生成一系列图形基元,并将其提供给图形库。然后处理这些原语,并将它们传递给设备。然后设备将它们发送到输出文件。在渲染设备(例如 TIFF)的情况下,它将操作渲染到位图,当它到达文件末尾时,它将位图作为文件写入。在 pdfwrite 的情况下,它将这些原语重新组合成一个全新的 PDF 文件。
所以输出的 PDF 文件与输入的 PDF 文件没有任何共同之处,除了它的外观。
这种方法有缺点(它确实限制了我们保留输入文件的一些非打印方面),但也有优点;例如,它允许我们更改色彩空间、展平透明度、更改字体编码等。
除此之外,您还选择了创建 PDF/A 文件。PDF/A 限制了 PDF 规范的可用功能,并且可能(如果不查看原始文件就无法判断)根本不可能在不改变某些方面的情况下将原始 PDF 文件表示为 PDF/A 文件其中。
同样,没有看到我可以告诉的原始文件,但可能是您根本无法实现您想要的,或者至少不使用 Ghostscript。