我在字符向量中有一组独特的单词(已被“提取”),我想知道其中有多少出现在字符串中。
这是我到目前为止所拥有的:
library(RTextTools)
string <- "Players Information donation link controller support years fame glory addition champion Steer leader gang ghosts life Power Pellets tables gobble ghost"
wordstofind <- c("player","fame","field","donat")
# I created a stemmed list of the string
string.stem <- colnames(create_matrix(string, stemWords = T, removeStopwords = F))
我知道下一步可能涉及grepl("\\bword\\b,value")
或使用一些正则表达式,但我不确定在这种情况下最快的选项是什么。
这是我的标准:
- 我必须这样做很多次,所以尽可能快是一个问题。
- 它应该匹配整个单词(“es”不应该匹配“test”)。
任何朝着正确方向的推动都会很棒。