pdf - 从没有垂直线的PDF表格中提取表格

Question

我想从如下图所示的 PDF 文件中提取表格：

PDF 文件包含文本，不是扫描图像。我一直在尝试使用Camelot，但没有成功。lattice风味不起作用，因为没有垂直线并且风味stream无法正确分隔行。我玩过，row_tol但由于行的高度不同，它不适用于所有行。

有没有办法使用该lattice方法但考虑垂直线的列分隔符？还是有另一种提取表格的方法？

score 0 · Accepted Answer

在 python 中尝试使用 PDFplumber。使用 extract_tables(vertical_strategy="text") 。但我不确定结果是否准确，因为表中带有“注释”的行。

score 0 · Accepted Answer

我不确定您的表格是否始终遵循相同的布局/逻辑。但如果他们这样做，您可以尝试 Poppler 并使用布局感知文本转换并手动将其解析为 csv 或其他格式。

PDF 是一种非常丑陋的表格数据格式。

2 回答 2