python - 有哪些方法可以从 python 中的 pdf 文件中提取没有任何网格的表格？

Question

我正在做一个项目，该项目需要我自动从 pdf 文件中的表中提取数据的任务。我在这个项目中使用 python。

我想知道是否有更好的方法来解决这个问题。

我已经使用过表格，但是如果表格没有清晰的网格，表格就不能正常工作。

我正在考虑使用 Open CV 在表格和单元格周围绘制网格，然后使用 OCR 从文件中提取数据。

<img src="https://i.stack.imgur.com/qs9am.png">

score 3 · Accepted Answer

我注意到您处理数字 PDF（不是扫描的）。如果您仍然想在不使用 OCR 的情况下探索解决问题的一些可能性，您可以：

1 回答 1