我知道我可以使用 tm 包使用 Dictionary 函数来计算语料库中特定单词的出现次数:
require(tm)
data(crude)
dic <- Dictionary("crude")
tdm <- TermDocumentMatrix(crude, control = list(dictionary = dic, removePunctuation = TRUE))
inspect(tdm)
我想知道是否有一种工具可以向 Dictionary 提供正则表达式而不是固定单词?
有时词干可能不是我想要的(例如,我可能想找出拼写错误),所以我想做类似的事情:
dic <- Dictionary(c("crude",
"\\bcrud[[:alnum:]]+"),
"\\bcrud[de]")
从而继续使用 tm 包的功能?