PDF 内容以多种方式保存,“(abc) Tj”、“(<0035><0035>) Tj”或“\u065”。
我想知道是否有办法将 PDF 代码转换为一种类型,无论是直接文本“(abc) Tj”,还是十六进制“(<0035><0035>) Tj”,或者八进制“\u065”。
我认为如果将 PDF 转换并编码为一种类型,将更容易分析内容。
是否可以使用 Ghostscript 或其他东西来做到这一点?谢谢
PDF 内容以多种方式保存,“(abc) Tj”、“(<0035><0035>) Tj”或“\u065”。
我想知道是否有办法将 PDF 代码转换为一种类型,无论是直接文本“(abc) Tj”,还是十六进制“(<0035><0035>) Tj”,或者八进制“\u065”。
我认为如果将 PDF 转换并编码为一种类型,将更容易分析内容。
是否可以使用 Ghostscript 或其他东西来做到这一点?谢谢
本质上,不,没有办法这样做。有两种字符串,常规字符串 '(' 和 ')' 分隔,以及十六进制字符串 '<' 和 '>' 分隔。十六进制字符串不需要转义,而常规文本字符串确实需要用于“特殊”字符,如回车和换行。常规字符串中也允许使用八进制。
PDF 制作者可以自由地混合和匹配他们喜欢的所有内容,但通常给定的 PDF 制作者通常会自始至终使用一种技术。
因为 Ghostscript 的 pdfwrite 设备是 PDF 生成器,所以它(我相信)通常会以相同的方式生成所有输出。
它不会“转换”您的原始 PDF 文件。它会生成一个全新的 PDF 文件,该文件在外观上应该相同,但其内部结构与您的原始 PDF 没有任何相似之处。此外,一些元数据或保真度可能会丢失。