0

我一直在尝试以 pdf 格式提取嵌入在年度报告中的财务报表,并使用 python 以 excel/CSV 格式导出它们但我遇到了一些问题: 1. 特定的财务报表可以在报告的任何页面上。如果我要处理数百个 pdf,我将不得不指定页码,这需要很长时间。有什么方法可以让爬虫知道确切的语句在哪里?2. 一些报告跨越多个页面,刮取pdf后的最终结果不是我想要的 3. 不同的年度报告有不同的财务报表格式。有没有办法处理它们并将它们更改为特定的标准格式?

如果有人做过这样的事情并可以分享示例,我也将不胜感激。

Ps 我正在使用 python 并使用 tabula 和 Camelot

4

1 回答 1

0

我有一个类似的案例,问题是从 pdf 中提取特定的表单信息(姓名、出生日期等)。我使用tesseract open source softwarewithpytesseract对文件执行 OCR。由于我不需要整个 pdf,而是来自它们的特定信息,因此我设计了一种算法来查找信息:在我的案例中,我使用了简单的启发式方法(特定字段、特定行号和其他一些特定领域的东西),但你也可以使用机器学习方法并训练可以找到所需文本部分的分类器。您也可以使用特定领域的启发式方法,因为我确信财务报表具有特殊的词汇或一些指示其开始/结束的文本标记。我希望我至少能给你一些解决问题的想法

PS:使用 tesseract,您还可以处理多页 pdf。To 3) - 机器学习方法需要一些样本来学习对财务报表的良好概括。

于 2019-12-17T22:35:01.193 回答