0

我正在尝试为公司的年度报告构建一个 pdf 爬虫 - 这些报告是包含大量文本和大量表格的 pdf 文档。

我将 pdf 转换为 txt 没有任何问题,但我的实际目标是搜索某些关键字(例如 REVENUE、PROFIT)并将数据 Revenue 1.000.000.000€ 提取到数据框中。

我尝试了不同的库,尤其是 tabula-py 和 PyPDF2,但我找不到一个聪明的方法来做到这一点 - 任何人都可以帮助制定策略,这将是惊人的!

最好的问候, 罗宾

4

1 回答 1

0

从 PDF 中提取数据是一项棘手的工作。尽管有PDF 标准,但并非所有 PDF 都是平等的。如果您已经可以以文本形式提取您需要的数据,您可以使用RegEx提取您需要的数据。

亚马逊有一个名为Textract的机器学习工具,您可以将其与 Python 中的boto3 SDK一起使用。但是,这是一种“按次付费”服务。将 Textract 用于正则表达式的主要区别在于,Textract 可以识别和格式化数据对和表格,这意味着如果您的 PDF 发生变化,创建“爬虫”会更快,更不容易中断。

有一个名为Textract的 Python 包,但它与 AWS 中提供的包不同,而是(对于 PDF)使用pdftotext(默认)或pdfminer.six的包装器。值得一试,因为它可能会以更好的格式生成您的数据。

于 2020-06-19T12:54:21.567 回答