我正在使用 R-tm-Rweka 包进行一些文本挖掘。我必须提取 ngram,而不是在单个单词上构建 tf-tdm,这对我的目的来说还不够。我使用@Ben函数TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 3))
tdm <- TermDocumentMatrix(a, control = list(tokenize = TrigramTokenizer))
来提取三元组。输出有一个明显的错误,见下文。它会选择 4 个、3 个和 2 个单词的短语。理想情况下,它应该只拾取 4 个词的名词短语并删除(3 个和 2 个词)其余部分。如何强制执行此解决方案,例如 Python NLTK 具有备份标记器选项?
抽象策略 ->this is incorrect
>
抽象策略板 ->incorrect
抽象策略棋盘游戏 -> this should be the correct output
口音行政
口音行政简单
口音行政简单评论
非常感谢。