0

我正在使用 OCRing PDF 做一些工作,我很好奇是否有办法检查 PDF 是否已从 Word(或 Google Docs)导出。我可以检查 PDF 是否已使用 Xpdf 的 pdffonts 进行 OCR 处理。我知道 Word 和 Google Docs 会自动对导出的 PDF 进行 OCR,所以如果我发现 PDF 没有经过 OCR 处理。我知道它还没有出口。但是,如果它已经过 OCR,有什么方法可以检查 PDF 是否是从 Word/Google Docs VS 简单的 OCRd 与像 Tesseract 这样的程序导出的?具体来说,我正在使用 JavaScript,但任何信息都是有用的。

4

1 回答 1

0

对于查找此内容的任何人,我现在正在做的是使用带有 -meta 标志的 pdfinfo(来自 Xpdf)来检查 PDF 是否具有 XMP 元数据。从 Word 和 Google Docs 导出的 PDF 没有此元数据,但其他 PDF 有。

于 2013-06-19T20:04:02.223 回答