pdf - 检查 PDF 是否已从 Word/Google Docs 导出

Question

我正在使用 OCRing PDF 做一些工作，我很好奇是否有办法检查 PDF 是否已从 Word（或 Google Docs）导出。我可以检查 PDF 是否已使用 Xpdf 的 pdffonts 进行 OCR 处理。我知道 Word 和 Google Docs 会自动对导出的 PDF 进行 OCR，所以如果我发现 PDF 没有经过 OCR 处理。我知道它还没有出口。但是，如果它已经过 OCR，有什么方法可以检查 PDF 是否是从 Word/Google Docs VS 简单的 OCRd 与像 Tesseract 这样的程序导出的？具体来说，我正在使用 JavaScript，但任何信息都是有用的。

score 0 · Accepted Answer

对于查找此内容的任何人，我现在正在做的是使用带有 -meta 标志的 pdfinfo（来自 Xpdf）来检查 PDF 是否具有 XMP 元数据。从 Word 和 Google Docs 导出的 PDF 没有此元数据，但其他 PDF 有。

pdf - 检查 PDF 是否已从 Word/Google Docs 导出

1 回答 1

Related

Reference