0

我正在使用 pdfminer 从许多 PDF 文件中提取文本。某些 pdf 文件的结果文本文件很奇怪,其中每行仅包含一个字符。不是所有的 PDF 文件,而是其中的一些文件,我仍然无法找出原因以及哪些 PDF 文件会导致此问题。

这是我的代码:

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching,
                                  check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

这是导致问题的 PDF 文件之一。

编辑

我尝试了 tika,但由于我使用的是 Django,所以连接出现问题。

我得到的错误

非常感谢

4

1 回答 1

0

使用tika它为我提供更好的结果。

from tika import parser
def pdf_parser_tika(file_pointer):
        parsed = parser.from_file(file_pointer)
        return parsed["content"]
于 2016-06-23T13:32:43.533 回答