1

我想从如下图所示的 PDF 文件中提取表格: 在此处输入图像描述

PDF 文件包含文本,不是扫描图像。我一直在尝试使用Camelot,但没有成功。lattice风味不起作用,因为没有垂直线并且风味stream无法正确分隔行。我玩过,row_tol但由于行的高度不同,它不适用于所有行。

有没有办法使用该lattice方法但考虑垂直线的列分隔符?还是有另一种提取表格的方法?

4

2 回答 2

0

在 python 中尝试使用 PDFplumber。使用 extract_tables(vertical_strategy="text") 。但我不确定结果是否准确,因为表中带有“注释”的行。

于 2021-03-10T08:56:03.807 回答
0

我不确定您的表格是否始终遵循相同的布局/逻辑。但如果他们这样做,您可以尝试 Poppler 并使用布局感知文本转换并手动将其解析为 csv 或其他格式。

PDF 是一种非常丑陋的表格数据格式。

于 2019-10-14T14:53:59.940 回答