-1

我遇到了一项任务,该任务要求我从 pdf 文件中的图像中提取表格数据,以通过 python 代码整齐地格式化数据帧。有几个文件要处理,所有文件中的相关页面可能有不同的页码,因此这个问题的步骤顺序(我的假设)是:

  1. 导航到 pdf 的相关部分
  2. 提取表格数据的图像
  3. 从图像中提取数据,格式化并转换为数据帧。

一些谷歌搜索导致我找到了用于 pdf 文本提取、表格提取等的库 - 仅限模块化解决方案。

我将不胜感激在这方面的一些帮助。我应该使用哪些软件包?我的方法正确吗?对于类似问题,我可以获得任何有用的代码片段的参考吗?

所需表的页面结构

4

1 回答 1

1

这始于评论。我相信答案是有效的,因为它绝不是对服务的认可。我什至不使用它。我知道 Azure 也使用 SO。

这是商业服务的东西。您可以尝试 Azure 表单识别器(我不隶属于它):

https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer

以下是一些如何使用它的python示例:

https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer/how-to-guides/try-sdk-rest-api?pivots=programming-language-python

AWS 等价物是 Textract https://aws.amazon.com/textract

Google Cloud 版本称为 Form Parser - 请参阅https://cloud.google.com/document-ai/docs/processors-list#processor_form-parser

于 2021-12-15T09:58:32.943 回答