python - 浏览pdf文件以查找特定页面并使用python从图像中提取表格数据

Question

我遇到了一项任务，该任务要求我从 pdf 文件中的图像中提取表格数据，以通过 python 代码整齐地格式化数据帧。有几个文件要处理，所有文件中的相关页面可能有不同的页码，因此这个问题的步骤顺序（我的假设）是：

一些谷歌搜索导致我找到了用于 pdf 文本提取、表格提取等的库 - 仅限模块化解决方案。

我将不胜感激在这方面的一些帮助。我应该使用哪些软件包？我的方法正确吗？对于类似问题，我可以获得任何有用的代码片段的参考吗？

score 1 · Accepted Answer

这始于评论。我相信答案是有效的，因为它绝不是对服务的认可。我什至不使用它。我知道 Azure 也使用 SO。

这是商业服务的东西。您可以尝试 Azure 表单识别器（我不隶属于它）：

以下是一些如何使用它的python示例：

1 回答 1