4

正如 camelot 中提到的,我们可以从特定区域提取表,例如:

tables = camelot.read_pdf('table_regions.pdf', table_regions=['170,370,560,270'])

但是我怎样才能为我的 pdf 找到这些区域。

4

2 回答 2

1

您可以通过一些可视化调试来检测这些区域。

https://camelot-py.readthedocs.io/en/master/user/advanced.html#visual-debugging

于 2019-09-20T10:40:21.023 回答
1

我知道这是一个迟到的回复 - 但我刚刚遇到了一个可能的解决方案。

如果您正在寻找一种自动提取方法,您可以lattice在第一步中使用,检索表边界,tables[0]._bbox并在第二次调用camelot.read_pdf()参数时使用这些数字table_areas

请注意,对于 bbox,它们的排序格式很奇怪。

于 2020-09-29T10:00:47.710 回答