1

我想知道是否有人想到了一种以更易于阅读的形式显示 PDF 文档格式的方法?

现在,比较 PDF 文件,或者确切地查看不同版本之间的变化是非常困难的。许多变化肉眼看不到,因为它们不是图形表示的一部分(如“创建时间”等)。

因此,如果 PDF 是集成测试的结果,那么没有十六进制编辑器就很难找到问题所在。此外,在比较中很难忽略“创建时间”。

我不是在谈论任何解释和展示,只是将基本对象类型转换为某种元语言。为简单起见,我们假设 XML。并且像它们一样的名称节点在 PDF 规范中被命名。

大多数编程语言都有可用的 PDF 解析器。尽管如此,至少我仍然找不到任何人已经将其转换为可读的东西。

还是我错过了?

编辑:澄清(来自规范的示例):

BI % Begin inline image object
  /W 17 % Width in samples
  /H 17 % Height in samples
  /CS /RGB % Color space
  /BPC 8 % Bits per component
  /F [ /A85 /LZW ] % Filters

会成为:

<BI>
  <W>17</W>
  <H>17</H>
  <CS><RGB/></CS>
  <BPC>8</BPC>
  <F>
    <item>A85</item>
    <item>LZW</item>
  </F>
</BI>

..等等。

二进制数据既可以提取到文件中,也可以只显示哈希值或大小。

4

0 回答 0