r - 可以将 readLines 用于 R 的 ngram 处理吗？

问问题 2018-05-16T02:33:07.323

38 次

我试图计算由一到八个单词组成的短语的频率。我一直在阅读有关此处和其他地方的短语文本挖掘的信息，并发现使用 ngram 标记化将是最好的方法。

但是，当我从 .txt 文件中复制和粘贴文本时，它会出现多行的未识别符号错误。是否可以在 ngram_Tokenizer 代码中使用该readLines函数代替 X ？例如：

Bigram_Tokenizer<-function(X(readLines(file.choose())(Ngram_tokenizer(X(readLines(file.choose(),WekaControl(min=#,max=#)在GitHubGist ( 1 ) 上的 tomkauffman 给出的示例中？

当我复制 readLines 打印输出时，它会出现'unexpected [ in [' 我需要在两个“X”条目中包含相同的文本吗？

谢谢你，本·M。

r - 可以将 readLines 用于 R 的 ngram 处理吗？

0 回答 0

Related

Reference