5

我刚刚发现了使用 tabula-py(当然还有 tabula-java)从 pdf 中提取表格的乐趣。我现在正在为我的工作编写一个脚本,它从 pdf 表中读取一些数据,稍微清理一下,然后将其导出到 excel 中。我每天使用的pdf格式都是一样的,而且表格总是在某个区域。为了检测该区域,我使用了 tabula.exe:我选择表格,可视化预览(看起来不错),然后导出脚本,以便查看 tabula.exe 使用的 -a 参数。然后我在 Python 的命令中使用它,即:

df = tabula.read_pdf(os.fsdecode(directory)+filename, encoding = 'ISO-8859-1',
stream=True, area = "81.106,302.475,384.697,552.491", pages = 2, pandas_options={'header':None})

我使用 encoding 参数是因为标准 utf-8 返回错误,而使用 stream 方法,因为它是在 tabula.exe 中显示一个很好的提取表的方法。但是,数据框有一个问题,因为前 2 列(在 tabula.exe 的预览中正确显示为 2 个不同的列)实际上是一个单独的列,因此名称和值混合在一起。

您知道为什么同一区域会在 tabula-py 和 tabula.exe 中产生 2 个不同的结果吗?非常感谢你!

4

2 回答 2

4

在 GitHub 上弄清楚了:tabula-py 默认将“guess”选项设置为 True。因此,要纠正差异,您只需添加guess=False,输出将是相同的!

    df = tabula.read_pdf(os.fsdecode(directory)+filename, encoding = 'ISO-8859-1', 
         stream=True, area = "81.106,302.475,384.697,552.491", pages = 2, guess = False,  pandas_options={'header':None})
于 2017-11-18T01:40:50.200 回答
1

如果其他人不知道在哪里划定表格和列,您可以使用 Adob​​e Acrobat 轻松找到准确的尺寸。在 Adob​​e Acrobat 中打开 pdf,打开标尺,并将其设置为点。放大,你可以看到精确的点测量来分割区域/表格。

于 2021-04-26T23:37:14.380 回答