8

我有两个以下 DTM-s:

dtm <- DocumentTermMatrix(t)

dtmImproved <- DocumentTermMatrix(t, 
               control=list(minWordLength = 4, minDocFreq=5))

当我实现这个时,我看到两个相等的 DTM-s,如果我打开dtmImproved,会有带有 3 个符号的单词。为什么minWordLength参数不起作用?谢谢!

> dtm
A document-term matrix (591 documents, 10533 terms)

Non-/sparse entries: 43058/6181945
Sparsity           : 99%
Maximal term length: 135 
Weighting          : term frequency (tf)
> dtmImproved
A document-term matrix (591 documents, 10533 terms)

Non-/sparse entries: 43058/6181945
Sparsity           : 99%
Maximal term length: 135 
Weighting          : term frequency (tf)
4

2 回答 2

25
dtmImproved <- DocumentTermMatrix(t, control=list(wordLengths=c(4, 15), 
                                   bounds = list(global = c(5,Inf))))

这解决了问题!缺乏适当的文档真的让我很沮丧(:

于 2012-11-13T23:45:19.610 回答
0

如果可用,最好阅读源代码。阅读 wordcloud 函数@GitHub 的源代码,它是这么写的:
# Author: ianfellows
.....
if(min.freq > max(freq))
min.freq <- 0

因此,您的 DocumentTermMatrix 返回了您设置的 max(freq) < min.freq 界限,即没有出现的术语超过您设置的 min.freq 界限。

希望这有助于 MJJ

于 2015-07-08T04:37:16.593 回答