我试图计算由一到八个单词组成的短语的频率。我一直在阅读有关此处和其他地方的短语文本挖掘的信息,并发现使用 ngram 标记化将是最好的方法。
但是,当我从 .txt 文件中复制和粘贴文本时,它会出现多行的未识别符号错误。是否可以在 ngram_Tokenizer 代码中使用该readLines
函数代替 X ?例如:
Bigram_Tokenizer<-function(X(readLines(file.choose())(Ngram_tokenizer(X(readLines(file.choose(),WekaControl(min=#,max=#)
在GitHubGist ( 1 ) 上的 tomkauffman 给出的示例中?
当我复制 readLines 打印输出时,它会出现'unexpected [ in [' 我需要在两个“X”条目中包含相同的文本吗?
谢谢你,本·M。