我正在尝试将文档的特定部分作为表格读取。它的结构是一个表格,但在单元格、行或列之间没有分界线。
我成功地使用了read_pdf()
带有area
andcolumn
参数的方法。我可以准确地指定表格的开始和结束位置以及列的划分位置。
但是我的 pdf 在每个页面上都有多个不同大小的表格,没有明确的标记来识别它们,我必须使用这些参数。
我在这里read_pdf_with_template()
的 Github repo 问题中找到了该方法,并在文档、拉取请求和示例笔记本中找到了更多关于它的信息。
但是没有任何地方提到如何构建teamplate.json
以及我可以使用哪些参数或它们的含义。
我尝试将area
坐标插入到x1, y1, x2, y2
,在方法参数中传递列列表,并height
在width
表的大小中传递参数。
但它正在拾取 pdf 的顶部中心部分,这不等于我在反向计算所有内容时插入的任何坐标。
这是代码片段
import tabula
tables = tabula.read_pdf_with_template(input_path = "test.pdf", template_path = "template.json", columns=[195, 310, 380])
print(tables[0])
[
{
"page": 1,
"extraction_method": "stream",
"x1": 225,
"x2": 35,
"y1": 375,
"y2": 565,
"width": 525,
"height": 400
}
]