python - Camelot 无法提取整个表

Question

我使用 Camelot 从 PDF 中提取表格信息，我使用 ocrmypdf(500dpi) 将其从扫描转换为可搜索。

Camelot 似乎能够识别表并提取表中的大部分数据，但似乎无法提取下半部分。本质上，它看到了表格的上半部分，但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格：

但是当我使用 Camelot 的可视化调试方法时，我要求它向我展示它将提取的单词，它似乎将表格的底部识别为一个巨大的块

您可以在此处提供的有关改进 Camelots“视力”的任何指导都会有所帮助。

score 0 · Accepted Answer

除了块之外，水平线也被标记为文本，这很奇怪。

Camelot 使用 pdfminer.six 进行文本提取，您可以将LAParams（第 16 页）传递给 camelot.read_pdf() 进行调整。
您还应该检查camelot.plot(table, type="grid")线条是否被正确识别。如果不是，那可能就是问题所在。

1 回答 1