3

这个问题似乎很奇怪,但我需要问这个,因为当我将文本作为图像和图形作为图像进行比较时,我看到了一个非常有趣的输出。

理想情况下,我正在确定一种工具或算法来比较两个 pdf,生成将突出它们之间差异的输出。

pdf 中有一些可能性,它将文本作为图像格式(纸张上的旧文本被转换为 pdf)。

我们正在迁移那些遗留 pdf,最后我们正在与遗留和转换后的 pdf 输出进行比较。

我正在评估几个工具,如 Adob​​e dc pro、i-net pdfc 和 power pdf 等,用于比较两个 pdf。

在评估时,我可以看到 pdf 两侧的图形图像正在被比较(也不准确)。在完全忽略文本和图像的情况下,所有工具的结果都一致。

但我对作为图像的文本更感兴趣,因为我们处理更多的传统文本 pdf。

下面附上图形图像比较结果,它可以捕捉图像之间的差异。

图形图像

但是当我比较文本图像时,工具中没有突出显示差异。

文字图片

我从中了解到,文本不作为图像图形进行比较,工具完全忽略了比较。我想澄清我的假设是否正确。

其次,我想知道如何比较 pdf 中的文本图像以产生差异?

4

1 回答 1

4

我在 i-net PDFC 的作者公司工作,所以我也会回答你的第一个问题:

你的假设是正确的。i-net PDFC 能够比较图像和形状,但它无法检测某些内容是否完全改变了它的含义,例如用于绘制字母的线条形状,或者在您的情况下是必须识别为文本的图像。出于同样的原因,将 ASCII 艺术识别为图像也不起作用。即使它们的视觉外观相似,此类情况也将始终被检测为差异。

关于第二个问题:对一个或两个文档使用 OCR 转换工具是解决此问题的常见方法。由于转换后的文件中不同的字体样式和换行,比较页面的简单图像比较不太可能起作用。请注意,大多数 OCR 应用程序将使用渲染的页面图像进行识别。即使 PDF 文件中没有图像,这也可能导致错误的识别结果。

i-net Software 意识到了这一普遍问题,目前正在开发 OCR 模块。它将提供一个选项,将识别仅应用于 PDF 文件中的图像。

于 2017-09-20T06:34:15.307 回答