0

有没有办法从带有俄语文本(cp1251)的pdf文件中提取文本?

为了解析 pdf 文件,我使用 pdfminer 包。我试图在 pdfminer.converter.TextConverter 类的参数中指定编码,但它没有帮助。

4

1 回答 1

0

如果您想在从 PDF 文件中提取文本后进一步解析文本,则需要 python ...所以只需先提取文本而不转换文本并将其保存在 txt 文件中。

您可以为此目的使用 pdf2txt(使用 unbuntu:http ://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html )

然后你用 python 打开文件并将文本形式 cp1251 转换为 utf-8,这里接受的答案将告诉你如何做:

如何将字符串从 CP-1251 转换为 UTF-8?

然后解析...

于 2015-08-26T14:35:30.430 回答