我有一个包含多个文本和表格的 pdf,其中一行包含如下所示:
PDF content :
Id: 5647484848 Name Alex J
现在我使用 tabula-py 来解析内容,但结果丢失了一些东西(意味着你可以看到第一个字符或数字丢失)。
实际上我的原始 pdf 有很多文本和表格。我也尝试了其他行,在那里我得到了正确的结果。
Wrong Result :
['', '', 'Id:', '', '647484848', 'Name', '', 'lex J', '', '', '']
Should be :
['', '', 'Id:', '', '5647484848', 'Name', '', 'Alex J', '', '', '']
样本 :
# to get the exact row to find the name & index [7] is for Name
if len(row) == 11:
if "Name" in row:
print(row[7])
return Student(studentname=row[7])
在表格中阅读表格时,我设置了
df = tabula.read_pdf(pdf, output_format='json', pages='all',
password=secure_password, lattice=True)
该行是简单的文本类型,没有图像和所有。不知道为什么这个特定的行数据会失败。我已将类似的逻辑应用于我得到正确结果的其他行。请建议。