0

我正在对大型数据集进行文本挖掘。我能够创建 TDM 和 DTM,并能够使用 TDF 和 IDF 执行我的分析。但是我们可以在 R 中为 Bi Grams 创建一个术语文档矩阵或文档术语矩阵吗?我知道 Mahout 中提供了类似的设施,但我正在寻找一种在 R 中执行此操作的方法?

4

1 回答 1

1

以下代码对我有用:

BigramTokenizer <- function(x) {RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 2, max = 2))}
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = BigramTokenizer))
于 2014-05-14T11:09:55.417 回答