1

我将进行一个案例研究,我需要使用某些标准验证 PDF(例如,检查 PDF 中的内容是否具有特定的字体、字体大小、徽标位置)。所以我只想确认使用 iTEXT 是否可以获得这些 PDF 规范?如果是,iTEXT 中使用的 API 是什么?

注意:市场上是否还有其他具有这种功能的工具?

4

1 回答 1

2

由于 iText 允许您直接访问所有 PDF 对象(字典、数组、流......),它为您提供了所需的工具。但不要低估你的任务。根据您必须检查的标准,您可能还有很多工作要做。

例如,如果您的标准包括所有文本必须使用单一给定字体,您可以简单地解析整个文档文本并检查字体。另一方面,如果您必须区分例如标题和标准文本,则需要为此引入一些启发式方法,因为通常标题不标记为标题。

你的支票必须有多好?如果字体字典具有所需的名称条目就足够了,还是您实际上需要检查字体(可能是嵌入的字体子集)确实是所需的字体?

你提到了一个标志位置。您如何识别徽标(与其他图纸或图像相比)?

...

因此,iText 可以用作基础,但您必须事先做很多思考。如果您决定认真使用 iText,我建议您咨询iText in Action — 第 2 版

还有其他可用的 PDF 库和工具,包括免费的(如免费啤酒或免费演讲)和商业版,它们为 PDF 分析提供了一个框架。我主要使用 iText,因此不深入了解其他那些。

Ceterum censeo,您应该明确查看 PDF 规范ISO 32000-1:2008(尤其是关于图形和文本的第 8 章和第 9 章),以了解 PDF 包含哪些内容和不包含哪些内容。

于 2012-12-26T16:27:13.173 回答