0

我成功地在 pdf 中提取了我想要的表格,但是,当我使用相同的方法在另一个具有相同格式的 pdf 中提取表格时,标题和一些行丢失了。我尝试设置guess = False,它部分解决了问题,但我想知道是什么造成了差异。谢谢你的帮助。

代码如下:

dbs1 = tabula.io.read_pdf("66015 - 2021-05.pdf", stream=True ,pages = 2)
dbs = tabula.io.read_pdf("66015 - 2021-04.pdf", stream=True ,pages = 2)

结果如下:

dbs1 结果 dbs1 数据库结果 数据库

原始pdf:

数据库1 dbs1 数据库 数据库

4

0 回答 0