我正在做一个项目,该项目需要我自动从 pdf 文件中的表中提取数据的任务。我在这个项目中使用 python。
我想知道是否有更好的方法来解决这个问题。
我已经使用过表格,但是如果表格没有清晰的网格,表格就不能正常工作。
我正在考虑使用 Open CV 在表格和单元格周围绘制网格,然后使用 OCR 从文件中提取数据。
<img src="https://i.stack.imgur.com/qs9am.png">
我正在做一个项目,该项目需要我自动从 pdf 文件中的表中提取数据的任务。我在这个项目中使用 python。
我想知道是否有更好的方法来解决这个问题。
我已经使用过表格,但是如果表格没有清晰的网格,表格就不能正常工作。
我正在考虑使用 Open CV 在表格和单元格周围绘制网格,然后使用 OCR 从文件中提取数据。
<img src="https://i.stack.imgur.com/qs9am.png">
我注意到您处理数字 PDF(不是扫描的)。如果您仍然想在不使用 OCR 的情况下探索解决问题的一些可能性,您可以:
Camelot 表格数据提取器。这个库非常适合处理没有清晰网格的“坏”表。
您也可以考虑使用pdftotext将您的 PDF 转换为文本, 然后使用 Python 对其进行解析。