pdf - 将 pdf 转换为文本会返回奇怪的转义句

翻译自：https://stackoverflow.com/questions/60790405 2020-03-21T16:35:23.903

41 次

我正在尝试将文本从 pdf 提取到文本。pdf包含捷克语文本，其中包括ščřžý等字符......我尝试了多种方法，包括tika，textract，texttopdf，calibre，PDFMiner等。但是，我得到了许多未定义的字符，并且一些字符被错误地解码。我还尝试使用不同的编解码器对文本进行编码和解码，但没有成功。你能建议解决这个问题的可能方法吗？到目前为止，OCR 效果最好，但将 o（字母）误认为 0（零）并且一些字母大写。

pdf - 将 pdf 转换为文本会返回奇怪的转义句

0 回答 0

Related

Reference