0

最近我尝试使用 tabula 来解析 pdf 中的表格,该表格的每个字段中都不包含任何行。

这导致创建一个列表,将所有不同的字段组合成一个(输出示例)。

如何将此单个字符串转换为数据框,以便我可以操纵数字?非常感谢

4

1 回答 1

0

问题中没有给出要测试的虚拟文件,但是如果 pdf 表的列之间没有分隔线,并且从表格中提取后表格合并为一列,请尝试在表格中使用参数“列”。阅读_pdf。

根据Tabula Documentation,此参数的工作方式如下:

columns (list, optional) –
X coordinates of column boundaries.

因此,如果每个 PDF 的 PDF 格式都相同,您可以找到要从中分离数据的列的 X 坐标。为此,您可以使用任何 PDF 工具,例如 Adob​​e,也可以点击试用。

仍有疑问,请附上虚拟 PDF,以便查看。

于 2021-04-15T07:55:16.347 回答