python - 有什么方法可以识别 PDF 是否被编辑/篡改以及使用 Python 编辑/篡改 PDF 的确切位置？

Question

我正在努力识别银行对账单 PDF 文档中的伪造/篡改。信息元数据和 XMP 元数据并不总是存在于我拥有的 PDF 中，因此我无法创建任何通用规则来识别被篡改的 PDF。我正在使用 Python 库，例如 PyMuPDF、PDFMiner、PyPDF2 等。

我有两个问题：

附上 2 个 PDF 供参考 -

原文：-“sbi statment_out2.pdf”链接-https://drive.google.com/file/d/1DoWAKYcCudRO-Cwjbgf7RjiJUsF3DD3s/view ? usp=sharing

使用 Sejda 在线编辑器篡改：-“sbi statment_out2_Sejda_edited.pdf 链接 - https://drive.google.com/file/d/1J4eRy9tO3jN8AqEWNrKXtn40G6vdH5G3/view?usp=sharing

在经过调和的 PDF 中，我已将“信用”列下的“2,412.00”编辑为“12.00”。

如果有任何开源解决方案，请让我知道，最好是在 Python 中。

谢谢。

score 2 · Accepted Answer

确保 PDF 不被篡改的规范方法是只接受由创建者提供数字签名的 PDF 并验证它们，正如 Frank 已经通过指向 Adobe 论坛的链接指出的那样。

其变化可能是

如果正确实施，这种加密方法是相当安全的。

不幸的是，这些安全方法要求 PDF 的制作者在发布 PDF 时进行相应的合作。

如果制作者不合作并且只是发布没有这种加密保护的 PDF，您仍然可以比较应该类似创建的 PDF 的内部细节。如果这些内部细节差异很大，要么是有人对 PDF 进行了业余篡改，要么是 PDF 制作者更新或切换了 PDF 制作软件。

对于您的示例文件，此类细节存在许多差异，例如

当然，您可以使用 Python PDF 库来检查此类详细信息并确定分歧。

但要注意，这样你只会抓到外行的伪造者。了解自己业务的伪造者几乎不会在其输出中留下任何此类痕迹……

score 0 · Accepted Answer

Adobe 表示，除非签名，否则无法检测 pdf 是否已被修改。

2 回答 2