我希望将此 PDF中的信息刮成以下格式:
我已经圈出了 PDF 中信息的来源区域。
如您所见,此 PDF 的格式是高度非结构化的,更糟糕的是,不同的 PDF 可能采用完全不同的布局,并且还会缺少信息。不熟悉采矿的人已经很难解析此 PDF,因为并非所有信息都已明确标记。
所以我的问题是:是否有可能想出一种自动化的方法来处理数千个这样的 PDF?如果是这样,我将如何开始处理这项任务?我可以用 R 和 Python 很好地编程。
我意识到这是一项相当困难(如果不是不可能的话)的任务。感谢您的输入。