0

我正在尝试遵循此示例,但遇到了错误。

> library("RWeka")
> library("tm")
Loading required package: NLP
> data("crude")
> BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
> tdm <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer))
Error in rep(seq_along(x), sapply(tflist, length)) : 
  invalid 'times' argument
In addition: Warning message:
In mclapply(unname(content(x)), termFreq, control) :
  scheduled core 1 encountered error in user code, all values of the job will be affected

有任何想法吗?

4

1 回答 1

1

只需使用一些更好/现代的包装。我可以建议几个选择:

  1. 使用text2vec而不是tm. 有关示例,请参见小插曲。(我是作者)。
  2. 值得检查quanteda
  3. 如果出于某种原因您喜欢tm,请尝试使用tokenizers包来替换RWekangram tokenizer。
于 2016-08-02T10:00:14.917 回答