我有几百个 PDF 文件,我需要从中提取部分文本。对于许多人来说,pdftotext工作正常,但对于其他人来说,它会遗漏大部分文本。如果我在 Acrobat 中打开 PDF 并手动选择该文本并将其复制/粘贴到 emacs 中,然后查看没有编码的文件,我会得到如下内容:
Husband \364\200\200\272\364\200\201\213\364 etc.
如何正确提取文本?
我应该提到我已经尝试从 Acrobat 中另存为文本;还尝试在复制前应用 Acrobat 的 Document=>OCR 功能。