我正在尝试使用以下代码定位(然后提取)重复的短语。我需要以“大约”开头并以“关闭”结尾的短语。
例如“关闭了大约 1.629 亿美元的总资产和 1.445 亿美元的总存款”
str_locate(x,"(\b[Aa]pproximately\b)(.*)(\b[Cc]losed\b)")
str_extract(x,"(\b[Aa]pproximately\b)(.*)(\b[Cc]losed\b)")
上面的代码为短语起点和终点返回 NA。这是短语所在的字符向量示例。(它是公开可用的 FDIC 信息的网页)
"206-4662)。\r\n\r\n12 月 \r\n\r\n\r\n 总资产约 1.629 亿美元、总存款约 1.445 亿美元的亚利桑那州凤凰城西部国家银行已关闭。华盛顿Federal, Seattle, WA 已同意承担除某些经纪存款之外的所有存款。\r\n(PR-195-2011) \r\n\r\n\r\n\r\n Premier Community Bank of the Emerald Coast , Crestview, FL 已关闭,总资产约为 1.26 亿美元,存款总额为 1.121 亿美元。Summit Bank, NA, Panama City, FL 已同意承担所有存款。\r\n(PR-194-2011)"
我可能不正确地使用 reg 表达式,因为我是新手,所以非常感谢任何建议。