我正在尝试从 PDF 文件中提取所有文本。我正在使用在线 PDF,它们包括表格。但是,此代码有效,当它到达 PDF 中的表格时,表格中的文本按列而不是按行打印,这会弄乱我的数据。有没有办法让表格按行读取,而不必单独浏览表格?我仍然需要 PDF 中的所有文本一起打印。我正在使用python。
def getTextFromPDF(url):
open = urllib.request.urlopen(url).read()
memoryFile = io.BytesIO(open)
resource_manager = PDFResourceManager()
fake_file_handle = io.StringIO()
converter = TextConverter(resource_manager, fake_file_handle, laparams=LAParams())
page_interpreter = PDFPageInterpreter(resource_manager, converter)
with memoryFile as fh:
for page in PDFPage.get_pages(fh,
caching=True,
check_extractable=True):
page_interpreter.process_page(page)
text = fake_file_handle.getvalue()
# close open handles
converter.close()
fake_file_handle.close()
return text