python - PDF 到 TEXT 的转换方式错误

Question

我正在使用 pdfminer 从许多 PDF 文件中提取文本。某些 pdf 文件的结果文本文件很奇怪，其中每行仅包含一个字符。不是所有的 PDF 文件，而是其中的一些文件，我仍然无法找出原因以及哪些 PDF 文件会导致此问题。

这是我的代码：

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching,
                                  check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

这是导致此问题的 PDF 文件之一。

编辑

我尝试了 tika，但由于我使用的是 Django，所以连接出现问题。

非常感谢

score 0 · Accepted Answer

使用tika它为我提供更好的结果。

from tika import parser
def pdf_parser_tika(file_pointer):
        parsed = parser.from_file(file_pointer)
        return parsed["content"]

python - PDF 到 TEXT 的转换方式错误

1 回答 1

Related

Reference