我有一份被篡改/伪造的 SBI 银行对账单 PDF。这是PDF的链接。
此 PDF 使用在线编辑器www.ilovepdf.com进行编辑。编辑的部分是该'Credit'
列下的第一个条目。原始条目是'2,412.00'
,我已将其修改为'12.00'
.
是否有任何编程方式使用 Python 或任何其他开源技术来识别 PDF 的编辑/修改位置/区域(即此 PDF 中 12.00 学分左右的 BBOX(边界框))?
我已经知道的两件事:
元数据(信息或 XMP 元数据)没有用处。元数据的修改日期不能确认 PDF 是否被压缩或确实被编辑,在这两种情况下都会更改修改日期。它也没有给出编辑的位置。
PyMuPDF SPANS JSON 对象也没有用,因为编辑的条目不在 SPANS JSON 的末尾,而是在 PDF 中的文本的正确顺序中。这是从 PyMuPDF 生成的 SPAN JSON 文件。
请让我知道是否有人有任何开源解决方案来解决这个问题。