正如 camelot 中提到的,我们可以从特定区域提取表,例如:
tables = camelot.read_pdf('table_regions.pdf', table_regions=['170,370,560,270'])
但是我怎样才能为我的 pdf 找到这些区域。
正如 camelot 中提到的,我们可以从特定区域提取表,例如:
tables = camelot.read_pdf('table_regions.pdf', table_regions=['170,370,560,270'])
但是我怎样才能为我的 pdf 找到这些区域。
您可以通过一些可视化调试来检测这些区域。
https://camelot-py.readthedocs.io/en/master/user/advanced.html#visual-debugging
我知道这是一个迟到的回复 - 但我刚刚遇到了一个可能的解决方案。
如果您正在寻找一种自动提取方法,您可以lattice
在第一步中使用,检索表边界,tables[0]._bbox
并在第二次调用camelot.read_pdf()
参数时使用这些数字table_areas
。
请注意,对于 bbox,它们的排序格式很奇怪。