我正在使用 tabula-py 解析银行对帐单,其中列由垂直边距分隔,但行没有分隔。所以我使用流模式,但如果在任何页面中没有任何列的条目,则 tabula 将它们合并为一个用于代码
tables=tabula.read_pdf("pdfname.pdf",pages='all')
所以我使用列选项手动选择列
tables=tabula.read_pdf("pdfname.pdf",pages='all',columns= ['27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0'])
但它没有像 tabula 甚至没有读取选项输出与以前的相同抱歉,出于隐私目的,我无法发布表格。
[我的表格有点像你可以在https://i.stack.imgur.com/f40V0.png 查看图片]