我正在尝试使用 R 包 edgar 从他们的 10-K 报告中提取多家公司的业务描述。我正在使用 getBusinDescr 函数来执行此操作。但是,我只能提取第 1 项(业务描述)和第 1A 项(风险因素)。有谁知道如何操纵函数“getBusinDescr”的代码来只检索项目1?解析必须以某种方式结束于“Item 1A. Risk Factors”。
问问题
210 次
为了我的研究,我已经为 SEC 提交了一段时间的文件,我的建议是开发自己的爬虫,除非你知道自己在做什么,否则我不建议这样做,或者你参考会计和金融软件存储库来自圣母大学。你可以在这里找到链接。
人们已经下载了编码为第一阶段数据解析器的整个 10-K 文件。完整的数据集有点重,但它已经在纯 txt 中,所以没有麻烦。您唯一需要做的就是定义一些正则表达式来启发式地查找报告的第 1 项和第 1A 项的开头和结尾。
请随时与我联系以获取更多信息。