我正在自动从 PDF 文件中提取表格数据。我需要使用一个名为Tabula的开源库。该工具可以选择将列提供给分隔表格 PDF 数据,如下所示:
-c 80, 250, 380
以上将创建 5 列;80、250 和 380 是列分隔符的单位。
谁能告诉我 80、250 和 380 是什么单位以及如何确定页面上的哪个水平点是什么数字?是否有衡量 PDF 的常用单位?
我正在自动从 PDF 文件中提取表格数据。我需要使用一个名为Tabula的开源库。该工具可以选择将列提供给分隔表格 PDF 数据,如下所示:
-c 80, 250, 380
以上将创建 5 列;80、250 和 380 是列分隔符的单位。
谁能告诉我 80、250 和 380 是什么单位以及如何确定页面上的哪个水平点是什么数字?是否有衡量 PDF 的常用单位?
在文档中有一个部分解释了如何从 tabula app 获取坐标。
在选择您想要的一个或多个区域并单击“预览和导出提取的数据”后,坐标也会出现在浏览器中开发人员工具的“控制台”选项卡中。