1

我使用 Camelot 从 PDF 中提取表格信息,我使用 ocrmypdf(500dpi) 将其从扫描转换为可搜索。

Camelot 似乎能够识别表并提取表中的大部分数据,但似乎无法提取下半部分。本质上,它看到了表格的上半部分,但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格:

PDF 中的表格

但是当我使用 Camelot 的可视化调试方法时,我要求它向我展示它将提取的单词,它似乎将表格的底部识别为一个巨大的块

表的可视化调试

您可以在此处提供的有关改进 Camelots“视力”的任何指导都会有所帮助。

4

1 回答 1

0

除了块之外,水平线也被标记为文本,这很奇怪。

Camelot 使用 pdfminer.six 进行文本提取,您可以将LAParams(第 16 页)传递给 camelot.read_pdf() 进行调整。
您还应该检查camelot.plot(table, type="grid")线条是否被正确识别。如果不是,那可能就是问题所在。

于 2021-10-26T10:20:00.390 回答