1

我正在使用 Camelot-py 从几个 PDF 中读取和提取属性。我使用 table_areas 来提取一些属性,并且由于某些表单之间的 X 或 Y 坐标的偏差,我在设置正确的区域时遇到了困难。一些表格(示例 1)在顶部有最少的空格,而其他表格(示例 2)有更多的空格。这将 y 坐标移动了大约 10-15

样品 1 在此处输入图像描述

样品 2 在此处输入图像描述

有没有办法在运行时裁剪或统一它们?

4

2 回答 2

0

对于此功能,您可以使用pdfCropMargins 裁剪PDF 文件的边距。它被实现为一个命令行应用程序,从 Python 调用它:

import subprocess

filename = "test.pdf"

cmd = f"pdf-crop-margins -v -s -u {filename}"

proc = subprocess.Popen(cmd.split())
proc.wait()

文档中:

该命令打印详细输出,强制所有页面大小相同(-s),然后将每个页面裁剪相同数量(-u)以获得统一的外观,保留默认的 10% 边距。

于 2019-12-08T11:15:08.823 回答
0

我认为解决方案是使用参数 table_regions,如Find PDF Dimensions with Camelot中所述。

阅读有关 table_regions 的更多信息:https ://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-regions

于 2019-01-29T09:20:40.967 回答