r - 创建 Bi Grams 的术语文档矩阵？

翻译自：https://stackoverflow.com/questions/23647262 2014-05-14T06:34:57.480

356 次

0

我正在对大型数据集进行文本挖掘。我能够创建 TDM 和 DTM，并能够使用 TDF 和 IDF 执行我的分析。但是我们可以在 R 中为 Bi Grams 创建一个术语文档矩阵或文档术语矩阵吗？我知道 Mahout 中提供了类似的设施，但我正在寻找一种在 R 中执行此操作的方法？

1 回答 1

1

以下代码对我有用：

BigramTokenizer <- function(x) {RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 2, max = 2))}
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = BigramTokenizer))

于 2014-05-14T11:09:55.417 回答