5

我正在使用 Camelot 阅读完整的 PDF,并从每个 PDF 中提取大约 112 个属性。

我使用表格区域来提取属性

 test_variable = camelot.read_pdf(filename, flavor='stream', 
                 table_areas=['38, 340 ,50, 328']) 

问题是所有文档中相同属性的表格区域不是恒定的。有时我会在另一个文档中的 x 或 y 坐标下几个像素处找到相同的属性。

 test_variable = camelot.read_pdf(filename, flavor='stream', 
                 table_areas=['38,350,50,338']) 

无论提取任何文档,有没有办法从同一区域获取确切的属性?

4

2 回答 2

2

也许选项 table_regions(在 0.7 中引入)可以帮助你。

https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-regions

“指定 table_regions 时,Camelot 将仅分析指定区域以查找表。”

您可以定义更大的 table_regions 区域,Camelot 将在该区域中搜索表。

于 2019-01-14T11:07:11.180 回答
2

Camelot使用opencv的坐标系,尺寸可以使用opencv的.shape

在此处查看 camelot 图像处理的源代码和此处的 opencv 文档

于 2019-12-03T21:04:52.800 回答