我正在使用 OCRing PDF 做一些工作,我很好奇是否有办法检查 PDF 是否已从 Word(或 Google Docs)导出。我可以检查 PDF 是否已使用 Xpdf 的 pdffonts 进行 OCR 处理。我知道 Word 和 Google Docs 会自动对导出的 PDF 进行 OCR,所以如果我发现 PDF 没有经过 OCR 处理。我知道它还没有出口。但是,如果它已经过 OCR,有什么方法可以检查 PDF 是否是从 Word/Google Docs VS 简单的 OCRd 与像 Tesseract 这样的程序导出的?具体来说,我正在使用 JavaScript,但任何信息都是有用的。
问问题
158 次