python - 识别在线编辑器www.ilovepdf.com使用Python修改的PDF中的编辑位置

Question

我有一份被篡改/伪造的 SBI 银行对账单 PDF。这是PDF的链接。

此 PDF 使用在线编辑器www.ilovepdf.com进行编辑。编辑的部分是该'Credit'列下的第一个条目。原始条目是'2,412.00'，我已将其修改为'12.00'.

是否有任何编程方式使用 Python 或任何其他开源技术来识别 PDF 的编辑/修改位置/区域（即此 PDF 中 12.00 学分左右的 BBOX（边界框））？

我已经知道的两件事：

元数据（信息或 XMP 元数据）没有用处。元数据的修改日期不能确认 PDF 是否被压缩或确实被编辑，在这两种情况下都会更改修改日期。它也没有给出编辑的位置。
PyMuPDF SPANS JSON 对象也没有用，因为编辑的条目不在 SPANS JSON 的末尾，而是在 PDF 中的文本的正确顺序中。这是从 PyMuPDF 生成的 SPAN JSON 文件。

请让我知道是否有人有任何开源解决方案来解决这个问题。

score 0 · Accepted Answer

iLovePDF完全改变了文档中的整个文本。您甚至可以看到这一点，只需在两个 Acrobat Reader 选项卡中打开原始 PDF 和经过处理的 PDF 并在它们之间来回切换，您就会看到几乎所有字母都有点移动。

在内部，iLovePDF 还根据自己的喜好完全重写了 PDF，并且编辑完美契合。

因此，不，您不能仅根据此文档识别被操纵的文本，因为它在技术上是完全不同的，全新的。

1 回答 1