9

可能重复:
用于比较大量 PDF 文件的工具?

我处于典型的场景中,企业为您提供了一堆的pdf 表格用于新年,没有任何修订说明,您应该弄清楚与前一年的不同之处。

我在这里谈论大量表格,因此我试图找到一种方法来比较 PDF 以概述差异,而无需人们手动浏览每一个表格。

我的想法是从 PDF 中提取所有文本并将其转储到 .txt 中,然后在文本文件上运行差异,但这听起来很可怕。

我的问题是以编程方式提出的,但我会对任何用于比较 PDF 的可靠工具感到满意,并且主要希望从人们的经验中获得想法。也愿意接受任何编程解决方案(最好在 C# 中,但请提出任何想法)。

4

4 回答 4

8

有不少软件产品声称可以区分 pdf。我从来不需要使用一个,但如果这将是一个重复的过程,我认为贵公司投资其中一个是明智的。只需谷歌“pdf diff”即可获得大量潜在应用程序。

此外,您的情况与以下问题非常相似:比较大量 PDF 文件的工具?我认为它的讨论可能会有所帮助。

于 2010-09-30T21:43:50.860 回答
8

我是Docotic.Pdf Library的开发者。我们在单元测试中使用 PDF 比较来检查测试是否按预期生成 PDF。PDF 是特殊对象的集合,我们比较所有 PDF 对象,忽略一些属性,如预告片 ID 和创建者信息。此实现工作正常。

您可以尝试方法PdfDocument.DocumentsAreEqual。这种方法只是告诉你文件是平等的,没有具体的区别。如果您需要更多功能,可以联系我们。

于 2010-10-02T03:47:10.297 回答
4

我采用了从 PDF 中获取原始数据的方法,然后使用 Word 或 TortiseSVN 或 WinMerge 等来处理比较部分。在我的例子中,我在 C# 中的 RichTextBox 中进行了比较...为差异着色等...因为我们希望在我们的应用程序中进行所有操作。

这就是我所做的... PDF 比较,因为我试图比较混合文档、Word 和 PDF。

但是我会推荐 PDFBox 进行解析,更优雅一点......虽然 iTextSharp 工作正常......

于 2010-09-30T21:50:31.523 回答
2

我在https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/上写了一篇博客,建议了一些比较 PDF 文件的方法

于 2010-10-01T07:10:32.873 回答