我有一个常规词(“激活”)或通配符(“activat *”)的向量。我想要:
1)计算每个单词在给定文本中出现的次数(即,如果“激活”出现在文本中,“激活”频率将为 1)。
2) 计算每个单词通配符在文本中出现的次数(即,如果“激活”和“激活”出现在文本中,“激活*”频率将为 2)。
我能够实现(1),但不能实现(2)。有人可以帮忙吗?谢谢。
library(tm)
library(qdap)
text <- "activation has begun. system activated"
text <- Corpus(VectorSource(text))
words <- c("activation", "activated", "activat*")
# Using termco to search for the words in the text
apply_as_df(text, termco, match.list=words)
# Result:
# docs word.count activation activated activat*
# 1 doc 1 5 1(20.00%) 1(20.00%) 0