0

我正在尝试使用 R 包 edgar 从他们的 10-K 报告中提取多家公司的业务描述。我正在使用 getBusinDescr 函数来执行此操作。但是,我只能提取第 1 项(业务描述)和第 1A 项(风险因素)。有谁知道如何操纵函数“getBusinDescr”的代码来只检索项目1?解析必须以某种方式结束于“Item 1A. Risk Factors”。

4

1 回答 1

0

为了我的研究,我已经为 SEC 提交了一段时间的文件,我的建议是开发自己的爬虫,除非你知道自己在做什么,否则我不建议这样做,或者你参考会计和金融软件存储库来自圣母大学。你可以在这里找到链接。

人们已经下载了编码为第一阶段数据解析器的整个 10-K 文件。完整的数据集有点重,但它已经在纯 txt 中,所以没有麻烦。您唯一需要做的就是定义一些正则表达式来启发式地查找报告的第 1 项和第 1A 项的开头和结尾。

请随时与我联系以获取更多信息。

于 2021-03-18T20:27:37.110 回答