python - 使用 tabula-py 读取带有空白单元格的表格

翻译自：https://stackoverflow.com/questions/57986997 2019-09-18T07:11:24.940

932 次

我正在尝试使用 tabula-py 将表格 10-K 中的大表（附有示例）加载到 Python 中。表格没有清晰的边框，并且有很多空白单元格，这会导致几个问题。

我的代码是

df = tabula.read_pdf("firm_xxx_10K.pdf", pages='100-101',guess=True,stream=True,columns=(144,210,300,340,380,420,450))

使用stream=True，我得到了所有数据，但多行中的信息被识别为单独的条目。有了lattice=True，那么多行的单元格就被正确识别为一个单元格，但现在结果漏掉了很多观察。

有没有更好的方法来设置选项？我尝试了很多选择，但现在我被卡住了。任何帮助深表感谢。最好的，

0 回答 0