python - 未检测列

Question

我正在使用 tabula-py 解析银行对帐单，其中列由垂直边距分隔，但行没有分隔。所以我使用流模式，但如果在任何页面中没有任何列的条目，则 tabula 将它们合并为一个用于代码

tables=tabula.read_pdf("pdfname.pdf",pages='all')

所以我使用列选项手动选择列

tables=tabula.read_pdf("pdfname.pdf",pages='all',columns= ['27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0'])

但它没有像 tabula 甚至没有读取选项输出与以前的相同抱歉，出于隐私目的，我无法发布表格。

[我的表格有点像你可以在https://i.stack.imgur.com/f40V0.png 查看图片]

score 0 · Accepted Answer

据我所知，tabula-py只是的一个包装器tabula-java，所以提取精度和 tabula app 一样。请改用PDFplumber。

score 0 · Accepted Answer

columns关键字参数应该是一个数字数组：

tables = tabula.read_pdf("pdfname.pdf",
                         pages='all',
                         columns=[27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0])

python - 未检测列

2 回答 2

Related

Reference