pdf - 使 PDF 格式可读和可区分

翻译自：https://stackoverflow.com/questions/24165740 2014-06-11T14:36:50.113

400 次

我想知道是否有人想到了一种以更易于阅读的形式显示 PDF 文档格式的方法？

现在，比较 PDF 文件，或者确切地查看不同版本之间的变化是非常困难的。许多变化肉眼看不到，因为它们不是图形表示的一部分（如“创建时间”等）。

因此，如果 PDF 是集成测试的结果，那么没有十六进制编辑器就很难找到问题所在。此外，在比较中很难忽略“创建时间”。

我不是在谈论任何解释和展示，只是将基本对象类型转换为某种元语言。为简单起见，我们假设 XML。并且像它们一样的名称节点在 PDF 规范中被命名。

大多数编程语言都有可用的 PDF 解析器。尽管如此，至少我仍然找不到任何人已经将其转换为可读的东西。

还是我错过了？

编辑：澄清（来自规范的示例）：

BI % Begin inline image object
  /W 17 % Width in samples
  /H 17 % Height in samples
  /CS /RGB % Color space
  /BPC 8 % Bits per component
  /F [ /A85 /LZW ] % Filters

会成为：

<BI>
  <W>17</W>
  <H>17</H>
  <CS><RGB/></CS>
  <BPC>8</BPC>
  <F>
    <item>A85</item>
    <item>LZW</item>
  </F>
</BI>

..等等。

二进制数据既可以提取到文件中，也可以只显示哈希值或大小。

pdf - 使 PDF 格式可读和可区分

0 回答 0

Related

Reference