在我的数据(即文本)中,有缩写。
是否有在文本中搜索缩写的函数或代码?例如,检测 3-4-5 大写字母缩写并让我计算它们发生的频率。
非常感激!
检测 3-4-5 大写字母缩写
您可以使用
\b[A-Z]{3,5}\b
查看正则表达式演示
详情:
\b
- 单词边界[A-Z]{3,5}
- 3、4 或 5 个大写字母(也用于[[:upper:]]
匹配 ASCII 以外的字母)\b
- 单词边界。R 在线演示(利用来自@TheComeOnMan的正则表达式出现计数代码)
abbrev_regex <- "\\b[A-Z]{3,5}\\b";
x <- "XYZ was seen at WXYZ with VWXYZ and did ABCDEFGH."
sum(gregexpr(abbrev_regex,x)[[1]] > 0)
## => [1] 3
regmatches(x, gregexpr(abbrev_regex, x))[[1]]
## => [1] "XYZ" "WXYZ" "VWXYZ"
您可以使用正则表达式[A-Z]
来匹配任何出现的大写字母。如果您希望此模式重复 3 次,您可以添加\1{3}
到您的正则表达式。考虑使用变量和循环来完成 3 到 5 次重复的工作。