pdf - 从 PDF 中抓取非结构化信息

Question

我希望将此 PDF中的信息刮成以下格式：

在此处输入图像描述

我已经圈出了 PDF 中信息的来源区域。

如您所见，此 PDF 的格式是高度非结构化的，更糟糕的是，不同的 PDF 可能采用完全不同的布局，并且还会缺少信息。不熟悉采矿的人已经很难解析此 PDF，因为并非所有信息都已明确标记。

所以我的问题是：是否有可能想出一种自动化的方法来处理数千个这样的 PDF？如果是这样，我将如何开始处理这项任务？我可以用 R 和 Python 很好地编程。

我意识到这是一项相当困难（如果不是不可能的话）的任务。感谢您的输入。

score 1 · Accepted Answer

我认为这并不像人们想象的那么困难。我同意它不会 100% 准确，但您肯定只是考虑了潜在的不准确性。我也不认为人类是 100% 准确的。

因此，我建议您使用 PDF 库来提取文本，然后使用一组关键字匹配来尝试查找适当的信息。对于您提取的每个关键字，可能使用示例 PDF 中的红色圆圈标记原始 PDF。

然后在最终输出中不仅存储数据，还存储 PDF，以便人们可以查看数据并在适当时覆盖这些值。您需要定期检查覆盖的值并调整您的启发式方法以更好地应对。

您还需要一个测试台，以便您可以存储数千个测试文档并根据您现有的知识库验证任何代码更改。这让你有信心改变事情，并合理地确定你没有破坏任何重要的东西。

我的答案可能包含基于 ABCpdf 的概念。这就是我的工作。这是我所知道的。:-)

score 0 · Accepted Answer

我看不到您的 PDF，链接可能已损坏。但要从非结构化 PDF 中提取数据，请考虑使用 pdftotext 将 pdf 转换为纯文本：

pdftotext -layout {PDF-file} {text-file}

然后使用我在遇到类似问题时创建的一个小型python 包。我是一名业余程序员，所以库可能有点“脏”，而且我可能包含一些错误。您可以通过 pip 安装它：

sudo pip install MassTextExtractor

您可以在此答案中看到它的使用示例。

2 回答 2