我正在使用 camelot 阅读 pdf 并打印出表格,但它似乎没有按预期读取表格。我使用来自网站的 pdf 到 excel 转换器并得到了我预期的结果,所以我假设表格存在。我还突出显示了 pdf,并注意到文本以表格格式排列。我要看看其他可能性,但似乎我可以用 Camelo 挑选特定的桌子,这非常适合我想做的事情。我的问题是为什么会出现这种情况,以及是否还有其他方法可以做到这一点。谢谢你
我试过了:
file = "file.pdf"
tables = camelot.read_pdf(file, pages = "1-end")
print(tables[2].df)
结果得到了这个:
IndexError: list index out of range
所以,我试过这个:
file = "file.pdf"
tables = camelot.read_pdf(file, pages = "1-end")
print(tables.n)
并得到 0。
预期的结果应该是这样的:
name id
job number
address none
address xyz
address date
company name
quarter report
date
Group Manager quarter1 quarter2 quarter3 quarter4 total
element2 A $ $ $ $ $
notElement B $ $ $ $ $
card3 C $ $ $ $ $
box4 D $ $ $ $ $
element3 E $ $ $ $ $
box1 F $ $ $ $ $
notElement B $ $ $ $ $
notElement C $ $ $ $ $
card7 D $ $ $ $ $
element4 E $ $ $ $ $
quarter1 quarter2 quarter3 quarter4
average $ $
results none none
missed 1
missed 1