我成功地在 pdf 中提取了我想要的表格,但是,当我使用相同的方法在另一个具有相同格式的 pdf 中提取表格时,标题和一些行丢失了。我尝试设置guess = False,它部分解决了问题,但我想知道是什么造成了差异。谢谢你的帮助。
代码如下:
dbs1 = tabula.io.read_pdf("66015 - 2021-05.pdf", stream=True ,pages = 2)
dbs = tabula.io.read_pdf("66015 - 2021-04.pdf", stream=True ,pages = 2)
结果如下:
原始pdf: