0

我有一份被篡改/伪造的 SBI 银行对账单 PDF。是PDF的链接。

此 PDF 使用在线编辑器www.ilovepdf.com进行编辑。编辑的部分是该'Credit'列下的第一个条目。原始条目是'2,412.00',我已将其修改为'12.00'.

是否有任何编程方式使用 Python 或任何其他开源技术来识别 PDF 的编辑/修改位置/区域(即此 PDF 中 12.00 学分左右的 BBOX(边界框))?

我已经知道的两件事:

  1. 元数据(信息或 XMP 元数据)没有用处。元数据的修改日期不能确认 PDF 是否被压缩或确实被编辑,在这两种情况下都会更改修改日期。它也没有给出编辑的位置。

  2. PyMuPDF SPANS JSON 对象也没有用,因为编辑的条目不在 SPANS JSON 的末尾,而是在 PDF 中的文本的正确顺序中。是从 PyMuPDF 生成的 SPAN JSON 文件。

请让我知道是否有人有任何开源解决方案来解决这个问题。

4

1 回答 1

0

iLovePDF完全改变了文档中的整个文本。您甚至可以看到这一点,只需在两个 Acrobat Reader 选项卡中打开原始 PDF 和经过处理的 PDF 并在它们之间来回切换,您就会看到几乎所有字母都有点移动。

在内部,iLovePDF 还根据自己的喜好完全重写了 PDF,并且编辑完美契合。

因此,不,您不能仅根据此文档识别被操纵的文本,因为它在技术上是完全不同的,全新的。

于 2021-02-23T17:50:45.857 回答