image - 文本作为图像和图形作为图像之间的区别

Question

这个问题似乎很奇怪，但我需要问这个，因为当我将文本作为图像和图形作为图像进行比较时，我看到了一个非常有趣的输出。

理想情况下，我正在确定一种工具或算法来比较两个 pdf，生成将突出它们之间差异的输出。

pdf 中有一些可能性，它将文本作为图像格式（纸张上的旧文本被转换为 pdf）。

我们正在迁移那些遗留 pdf，最后我们正在与遗留和转换后的 pdf 输出进行比较。

我正在评估几个工具，如 Adobe dc pro、i-net pdfc 和 power pdf 等，用于比较两个 pdf。

在评估时，我可以看到 pdf 两侧的图形图像正在被比较（也不准确）。在完全忽略文本和图像的情况下，所有工具的结果都一致。

但我对作为图像的文本更感兴趣，因为我们处理更多的传统文本 pdf。

下面附上图形图像比较结果，它可以捕捉图像之间的差异。

但是当我比较文本图像时，工具中没有突出显示差异。

我从中了解到，文本不作为图像图形进行比较，工具完全忽略了比较。我想澄清我的假设是否正确。

其次，我想知道如何比较 pdf 中的文本图像以产生差异？

score 4 · Accepted Answer

我在 i-net PDFC 的作者公司工作，所以我也会回答你的第一个问题：

你的假设是正确的。i-net PDFC 能够比较图像和形状，但它无法检测某些内容是否完全改变了它的含义，例如用于绘制字母的线条形状，或者在您的情况下是必须识别为文本的图像。出于同样的原因，将 ASCII 艺术识别为图像也不起作用。即使它们的视觉外观相似，此类情况也将始终被检测为差异。

关于第二个问题：对一个或两个文档使用 OCR 转换工具是解决此问题的常见方法。由于转换后的文件中不同的字体样式和换行，比较页面的简单图像比较不太可能起作用。请注意，大多数 OCR 应用程序将使用渲染的页面图像进行识别。即使 PDF 文件中没有图像，这也可能导致错误的识别结果。

i-net Software 意识到了这一普遍问题，目前正在开发 OCR 模块。它将提供一个选项，将识别仅应用于 PDF 文件中的图像。

1 回答 1