2

我正在使用 tabula-py 解析银行对帐单,其中列由垂直边距分隔,但行没有分隔。所以我使用流模式,但如果在任何页面中没有任何列的条目,则 tabula 将它们合并为一个用于代码

tables=tabula.read_pdf("pdfname.pdf",pages='all')

所以我使用列选项手动选择列

tables=tabula.read_pdf("pdfname.pdf",pages='all',columns= ['27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0'])

但它没有像 tabula 甚至没有读取选项输出与以前的相同抱歉,出于隐私目的,我无法发布表格。

[我的表格有点像你可以在https://i.stack.imgur.com/f40V0.png 查看图片]

4

2 回答 2

0

据我所知,tabula-py只是 的一个包装器tabula-java,所以提取精度和 tabula app 一样。请改用PDFplumber

于 2019-07-10T12:10:29.230 回答
0

columns关键字参数应该是一个数字数组:

tables = tabula.read_pdf("pdfname.pdf",
                         pages='all',
                         columns=[27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0])
于 2019-06-29T18:51:02.213 回答