我正在尝试识别多行的模式,确切地说是 2 行。由于任一行中的模式都不是唯一的,因此我正在使用这种方法。
到目前为止,我已经尝试使用函数“grep”,但我认为我在这里缺少正确的正则表达式。
grep("^Item\\s{0,}2[^A]", f.text, ignore.case = TRUE)
这部分是 edgar 包函数“getfillings”的修改版本,并尝试仅提取管理层的评论/项目 2 以获得季度结果。如果可能的话,我会在 ...2[^A]
在对新行做出反应的函数中包含一些内容,然后是字符串“Management...”
我拥有的普通 txt 中的模式如下所示:
项目二
、管理层对财务状况和经营成果的讨论与分析
对于如何在 R 的正则表达式中最好地捕获这一点,我将不胜感激。
示例输入如下所示:
21 第 2 项
管理层对财务状况和经营成果的讨论与分析 本节及本季度报告的其他部分 表 10 第 3 项
市场风险的定量和定性披露 公司市场风险未发生重大变化
并且期望的输出是
管理层对财务状况和经营成果的讨论和分析 本节和本季度报告的其他部分,表格 10
我需要匹配“第 2 项......管理讨论”,因为第 2 项不是唯一的。如何跨两行制定正则表达式?