我已经搜索并能够找到这个论坛讨论以实现重叠匹配的效果。
我还发现了以下关于查找索引以执行此任务的SO问题,但无法找到任何关于在 R 语言中获取重叠匹配项的简明信息。
我可以在大多数支持 ( PCRE ) 的语言中执行此任务,方法是使用 Positive Lookahead 断言,同时在前瞻内部实现捕获组以捕获重叠匹配。
但是,虽然实际上以我在其他语言中使用perl=T
R 的相同方式执行此操作,但没有产生任何结果。
> x <- 'ACCACCACCAC'
> regmatches(x, gregexpr('(?=([AC]C))', x, perl=T))[[1]]
[1] "" "" "" "" "" "" ""
使用stringi
和stringr
包也是如此。
> library(stringi)
> library(stringr)
> stri_extract_all_regex(x, '(?=([AC]C))')[[1]]
[1] "" "" "" "" "" "" ""
> str_extract_all(x, perl('(?=([AC]C))'))[[1]]
[1] "" "" "" "" "" "" ""
执行此操作时应返回的正确结果是:
[1] "AC" "CC" "AC" "CC" "AC" "CC" "AC"
编辑
我很清楚这
regmatches
不适用于捕获的匹配,但究竟是什么导致了正则匹配中的这种行为,为什么没有返回结果?我正在寻找一个有点详细的答案。stringi
andstringr
包不能执行此操作吗regmatches
?请随时添加到我的答案中或提出与我发现不同的解决方法。