python - tabula_py 问题如何提取分布在多个页面中的 pdf 表格数据

翻译自：https://stackoverflow.com/questions/62332477 2020-06-11T19:53:37.030

93 次

2

我正在尝试使用 tabula_py 从 pdf 中提取所有表数据： df=tabula.read_ptabula.read_pdf(test_pdf,stream=True,multiple tables=True,pages="all")

pdf有3个表。第二张表在 2 页上。当我尝试 len(df) 时，它返回 4 而不是 3 扩展页面上第二个表数据的第一行作为标题返回如何将数据作为同一个表从标题提取到最后一行

0 回答 0