1

我有几百个 PDF 文件,我需要从中提取部分文本。对于许多人来说,pdftotext工作正常,但对于其他人来说,它会遗漏大部分文本。如果我在 Acrobat 中打开 PDF 并手动选择该文本并将其复制/粘贴到 emacs 中,然后查看没有编码的文件,我会得到如下内容:

 Husband \364\200\200\272\364\200\201\213\364 etc.

如何正确提取文本?

我应该提到我已经尝试从 Acrobat 中另存为文本;还尝试在复制前应用 Acrobat 的 Document=>OCR 功能。

4

1 回答 1

-1

为什么不先将 PDF 转换为 doc 或 txt?请参阅指南: http ://www.aolor.com/pdf-converter/user-guide.html

于 2013-11-15T16:29:47.463 回答