python - tabula pdf到数据框，相同的pdf格式，不同的结果python

翻译自：https://stackoverflow.com/questions/68797413 2021-08-16T04:28:30.713

56 次

我成功地在 pdf 中提取了我想要的表格，但是，当我使用相同的方法在另一个具有相同格式的 pdf 中提取表格时，标题和一些行丢失了。我尝试设置guess = False，它部分解决了问题，但我想知道是什么造成了差异。谢谢你的帮助。

代码如下：

dbs1 = tabula.io.read_pdf("66015 - 2021-05.pdf", stream=True ,pages = 2)
dbs = tabula.io.read_pdf("66015 - 2021-04.pdf", stream=True ,pages = 2)

结果如下：

dbs1 数据库

原始pdf：

dbs1 数据库

0 回答 0