我一直在尝试以 pdf 格式提取嵌入在年度报告中的财务报表,并使用 python 以 excel/CSV 格式导出它们但我遇到了一些问题: 1. 特定的财务报表可以在报告的任何页面上。如果我要处理数百个 pdf,我将不得不指定页码,这需要很长时间。有什么方法可以让爬虫知道确切的语句在哪里?2. 一些报告跨越多个页面,刮取pdf后的最终结果不是我想要的 3. 不同的年度报告有不同的财务报表格式。有没有办法处理它们并将它们更改为特定的标准格式?
如果有人做过这样的事情并可以分享示例,我也将不胜感激。
Ps 我正在使用 python 并使用 tabula 和 Camelot