0

我正在尝试将文本从 pdf 提取到文本。pdf包含捷克语文本,其中包括ščřžý等字符......我尝试了多种方法,包括tika,textract,texttopdf,calibre,PDFMiner等。但是,我得到了许多未定义的字符,并且一些字符被错误地解码。我还尝试使用不同的编解码器对文本进行编码和解码,但没有成功。你能建议解决这个问题的可能方法吗?到目前为止,OCR 效果最好,但将 o(字母)误认为 0(零)并且一些字母大写。

4

0 回答 0