0

PDF 内容以多种方式保存,“(abc) Tj”、“(<0035><0035>) Tj”或“\u065”。

我想知道是否有办法将 PDF 代码转换为一种类型,无论是直接文本“(abc) Tj”,还是十六进制“(<0035><0035>) Tj”,或者八进制“\u065”。

我认为如果将 PDF 转换并编码为一种类型,将更容易分析内容。

是否可以使用 Ghostscript 或其他东西来做到这一点?谢谢

4

1 回答 1

2

本质上,不,没有办法这样做。有两种字符串,常规字符串 '(' 和 ')' 分隔,以及十六进制字符串 '<' 和 '>' 分隔。十六进制字符串不需要转义,而常规文本字符串确实需要用于“特殊”字符,如回车和换行。常规字符串中也允许使用八进制。

PDF 制作者可以自由地混合和匹配他们喜欢的所有内容,但通常给定的 PDF 制作者通常会自始至终使用一种技术。

因为 Ghostscript 的 pdfwrite 设备是 PDF 生成器,所以它(我相信)通常会以相同的方式生成所有输出。

不会“转换”您的原始 PDF 文件。它会生成一个全新的 PDF 文件,该文件在外观上应该相同,但其内部结构与您的原始 PDF 没有任何相似之处。此外,一些元数据或保真度可能会丢失。

于 2015-08-22T08:15:36.297 回答