先来一些背景
通常,PDF 文件由标题、正文、交叉引用信息和预告片组成,见下图 2。更新此类 PDF 文件时,您可以选择
- 或者重新构建整个文档并集成所有更改(这会导致 PDF 再次像原始文件一样形成)
- 或者您可以将正文元素的更改和交叉引用附加到文档中,并添加一个新的预告片也引用以前的预告片(这会导致形成如下图 3 所示的 PDF)。
不过,实际上有一些介于两者之间的形式。例如,一些工具只是切断了原始文档的交叉引用和预告片,然后添加它们的新的或更改的正文元素、新的完整交叉引用和一个新的预告片,而没有对某个先前状态的任何反向引用。
(图像从 PDF 规范ISO 32000-1:2008复制)
对于如图 3 所示形成的 PDF,我们手头有 PDF 的不同状态的历史记录,每个状态都从文件的开头开始,一直延伸到并包括其中一个预告片。这些状态通常被称为文档的修订版,并且文档的每个修订版显然都反映了 PDF 表单信息的某些状态,我假设这就是您所说的 AcroFields 修订版。
与您的假设相反,这些修订本身没有名称。除非您使用 ID 的第二部分(对于不同的修订版本应该不同),否则 AFAIK 不用作 iText 中任何内容的名称。
预告片停止和下一次车身更新开始的确切点存在一些不精确性。一方面,规范中有一些迫在眉睫的选择(不同的可能换行符、忽略的空格、忽略的注释行),另一方面,许多 PDF 制作者无论如何都超出了规范。这与上面提到的完整更新和增量更新之间的中间品种相结合,有时会使提取修订的过程有些麻烦。
有一种可以高度可靠地识别的修订的特殊情况:签名修订,即最后一次正文更新包含文档的集成签名的修订。由于文档的签名字节范围必须包含所有文档修订版本,但为签名本身留下的空白(至少要被 Adobe 软件接受并符合 PAdES 和 PDF-2 标准),所以文件的确切结尾在这种情况下,可以从签名信息中推断出修订:
更多细节在这里。
您的问题的一些答案
我了解 pdf 文档中的每个签名都适用于 AcroFields 的某个版本。
如上所述,每个都应用于文档的特定修订,然后暗示表单数据的特定状态或“修订”。
每次用户更改某些输入(即通过填写 pdf 表单)时,都会创建一个新的修订。
不必要。如上所述,有许多中间更新方法。
仅当更改已签名最新修订的文档的信息时,才需要适当的增量更新,如果该签名不被删除或无效。否则,更新者可以获取最后一个签名之后添加的所有信息,使用他希望的任何内容创建自己的更新,并将该更新附加到文档的最后一个签名修订版。此更新甚至可能包含多个虚拟更新块,目的是让您相信某些中间版本确实存在。
因此,只有签名的修订才能以某种方式被认为是真实的。iText 仅提供对此类签名修订的访问。
我的问题是:如何从 AcroFields 对象中检索所有修订?
您可以使用提取所有签名的文档修订
InputStream revisionStream = fields.extractRevision("name");
并在单独的PdfReader
实例中打开它们。然后,您可以通过查询为该修订打开AcroFields
的相应实例来访问每个已签名修订的 PDF 表单信息。PdfReader
(顺便说一句,String
参数不是修订的名称,而是其签名签署该修订的签名字段的名称。)
但是我怎样才能检索所有的修订(或它们的名字,至少)?到目前为止,我还没有在 iText API 和网络中找到任何东西。
如前所述,这些修订名称实际上是签名字段名称。因此,您可以使用
List<String> names = fields.getSignatureNames()
检索可以提取修订的所有名称。