我正在使用 pdfminer 从许多 PDF 文件中提取文本。某些 pdf 文件的结果文本文件很奇怪,其中每行仅包含一个字符。不是所有的 PDF 文件,而是其中的一些文件,我仍然无法找出原因以及哪些 PDF 文件会导致此问题。
这是我的代码:
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos = set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching,
check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text
这是导致此问题的 PDF 文件之一。
编辑
我尝试了 tika,但由于我使用的是 Django,所以连接出现问题。
非常感谢