pdf - 正常方法失败时从 PDF 文件中恢复文本

Question

我有几百个 PDF 文件，我需要从中提取部分文本。对于许多人来说，pdftotext工作正常，但对于其他人来说，它会遗漏大部分文本。如果我在 Acrobat 中打开 PDF 并手动选择该文本并将其复制/粘贴到 emacs 中，然后查看没有编码的文件，我会得到如下内容：

 Husband \364\200\200\272\364\200\201\213\364 etc.

如何正确提取文本？

我应该提到我已经尝试从 Acrobat 中另存为文本；还尝试在复制前应用 Acrobat 的 Document=>OCR 功能。

score -1 · Accepted Answer

为什么不先将 PDF 转换为 doc 或 txt？请参阅指南： http ://www.aolor.com/pdf-converter/user-guide.html

1 回答 1