1

我正在做一个项目,该项目需要我自动从 pdf 文件中的表中提取数据的任务。我在这个项目中使用 python。

我想知道是否有更好的方法来解决这个问题。

我已经使用过表格,但是如果表格没有清晰的网格,表格就不能正常工作。

我正在考虑使用 Open CV 在表格和单元格周围绘制网格,然后使用 OCR 从文件中提取数据。

这是我试图从中提取表格的pdf页面示例

<img src="https://i.stack.imgur.com/qs9am.png">

4

1 回答 1

3

我注意到您处理数字 PDF(不是扫描的)。如果您仍然想在不使用 OCR 的情况下探索解决问题的一些可能性,您可以:

  • Camelot 表格数据提取器。这个库非常适合处理没有清晰网格的“坏”表。

  • 您也可以考虑使用pdftotext将您的 PDF 转换为文本, 然后使用 Python 对其进行解析。

于 2019-06-17T10:04:07.153 回答