这个问题似乎很奇怪,但我需要问这个,因为当我将文本作为图像和图形作为图像进行比较时,我看到了一个非常有趣的输出。
理想情况下,我正在确定一种工具或算法来比较两个 pdf,生成将突出它们之间差异的输出。
pdf 中有一些可能性,它将文本作为图像格式(纸张上的旧文本被转换为 pdf)。
我们正在迁移那些遗留 pdf,最后我们正在与遗留和转换后的 pdf 输出进行比较。
我正在评估几个工具,如 Adobe dc pro、i-net pdfc 和 power pdf 等,用于比较两个 pdf。
在评估时,我可以看到 pdf 两侧的图形图像正在被比较(也不准确)。在完全忽略文本和图像的情况下,所有工具的结果都一致。
但我对作为图像的文本更感兴趣,因为我们处理更多的传统文本 pdf。
下面附上图形图像比较结果,它可以捕捉图像之间的差异。
但是当我比较文本图像时,工具中没有突出显示差异。
我从中了解到,文本不作为图像图形进行比较,工具完全忽略了比较。我想澄清我的假设是否正确。
其次,我想知道如何比较 pdf 中的文本图像以产生差异?