python - Tabula-py read_pdf_with_template() 方法

Question

我正在尝试将文档的特定部分作为表格读取。它的结构是一个表格，但在单元格、行或列之间没有分界线。

我成功地使用了read_pdf()带有areaandcolumn参数的方法。我可以准确地指定表格的开始和结束位置以及列的划分位置。

但是我的 pdf 在每个页面上都有多个不同大小的表格，没有明确的标记来识别它们，我必须使用这些参数。

我在这里read_pdf_with_template()的 Github repo 问题中找到了该方法，并在文档、拉取请求和示例笔记本中找到了更多关于它的信息。

但是没有任何地方提到如何构建teamplate.json以及我可以使用哪些参数或它们的含义。

我尝试将area坐标插入到x1, y1, x2, y2，在方法参数中传递列列表，并height在width表的大小中传递参数。

但它正在拾取 pdf 的顶部中心部分，这不等于我在反向计算所有内容时插入的任何坐标。

这是我要阅读的页面（我删除了一些敏感数据）

这是代码片段

import tabula

tables = tabula.read_pdf_with_template(input_path = "test.pdf", template_path = "template.json", columns=[195, 310, 380])

print(tables[0])

[
    {
        "page": 1,
        "extraction_method": "stream",
        "x1": 225,
        "x2": 35,
        "y1": 375,
        "y2": 565,
        "width": 525,
        "height": 400
    }
]

score 0 · Accepted Answer

我只是一个笨蛋。

模板不是您手动生成的。它们应该由此处提到的 tabula 应用程序生成。

只需从官方网站下载表格。启动应用程序后，它非常简单。手动单击并拖动每个页面上的每个表格，然后单击顶部的下载模板按钮。

python - Tabula-py read_pdf_with_template() 方法

1 回答 1

Related

Reference