有没有一种简单的方法可以在 R 的文本语料库中不仅找到最常见的术语,而且还可以找到表达式(所以不止一个词,词组)?
使用 tm 包,我可以找到最常见的术语,例如:
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=3, highfreq=Inf)
我可以使用函数找到与最常用词相关的词findAssocs()
,因此我可以手动对这些词进行分组。但是我怎样才能找到这些词组在语料库中出现的次数呢?
谢谢
有没有一种简单的方法可以在 R 的文本语料库中不仅找到最常见的术语,而且还可以找到表达式(所以不止一个词,词组)?
使用 tm 包,我可以找到最常见的术语,例如:
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=3, highfreq=Inf)
我可以使用函数找到与最常用词相关的词findAssocs()
,因此我可以手动对这些词进行分组。但是我怎样才能找到这些词组在语料库中出现的次数呢?
谢谢
如果我没记错的话,你可以使用 weka 构造一个 Bigrams(2 个单词总是一起出现)的 TermDocumentMatrix,然后根据需要对其进行处理
library("tm") #text mining
library("RWeka") # for tokenization algorithms more complicated than single-word
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm <- TermDocumentMatrix(corpus, control = list(tokenize = BigramTokenizer))
# process tdm
# findFreqTerms(tdm, lowfreq=3, highfreq=Inf)
# ...
tdm <- removeSparseTerms(tdm, 0.99)
print("----")
print("tdm properties")
str(tdm)
tdm_top_N_percent = tdm$nrow / 100 * topN_percentage_wanted
或者,
#words combinations that occur at least once together an at most 5 times
wmin=1
wmax = 5
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = wmin, max = wmax))
有时它有助于首先执行词干提取以获得“更好”的词组。