我正在努力识别银行对账单 PDF 文档中的伪造/篡改。信息元数据和 XMP 元数据并不总是存在于我拥有的 PDF 中,因此我无法创建任何通用规则来识别被篡改的 PDF。我正在使用 Python 库,例如 PyMuPDF、PDFMiner、PyPDF2 等。
我有两个问题:
- 是否有任何具体的方法来识别 PDF 是否被篡改(使用 Python 或任何其他开源技术)?
- 如果 PDF 被篡改,那么 PDF 的哪一部分被篡改(使用 Python 或任何其他开源技术)?
附上 2 个 PDF 供参考 -
原文:-“sbi statment_out2.pdf”链接-https://drive.google.com/file/d/1DoWAKYcCudRO-Cwjbgf7RjiJUsF3DD3s/view ? usp=sharing
使用 Sejda 在线编辑器篡改:-“sbi statment_out2_Sejda_edited.pdf 链接 - https://drive.google.com/file/d/1J4eRy9tO3jN8AqEWNrKXtn40G6vdH5G3/view?usp=sharing
在经过调和的 PDF 中,我已将“信用”列下的“2,412.00”编辑为“12.00”。
如果有任何开源解决方案,请让我知道,最好是在 Python 中。
谢谢。