我想知道是否有人想到了一种以更易于阅读的形式显示 PDF 文档格式的方法?
现在,比较 PDF 文件,或者确切地查看不同版本之间的变化是非常困难的。许多变化肉眼看不到,因为它们不是图形表示的一部分(如“创建时间”等)。
因此,如果 PDF 是集成测试的结果,那么没有十六进制编辑器就很难找到问题所在。此外,在比较中很难忽略“创建时间”。
我不是在谈论任何解释和展示,只是将基本对象类型转换为某种元语言。为简单起见,我们假设 XML。并且像它们一样的名称节点在 PDF 规范中被命名。
大多数编程语言都有可用的 PDF 解析器。尽管如此,至少我仍然找不到任何人已经将其转换为可读的东西。
还是我错过了?
编辑:澄清(来自规范的示例):
BI % Begin inline image object
/W 17 % Width in samples
/H 17 % Height in samples
/CS /RGB % Color space
/BPC 8 % Bits per component
/F [ /A85 /LZW ] % Filters
会成为:
<BI>
<W>17</W>
<H>17</H>
<CS><RGB/></CS>
<BPC>8</BPC>
<F>
<item>A85</item>
<item>LZW</item>
</F>
</BI>
..等等。
二进制数据既可以提取到文件中,也可以只显示哈希值或大小。