0

我使用以下方法创建了一个二元组列表:

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm_a.bigram = TermDocumentMatrix(docs_a,
                                control = list(tokenize = BigramTokenizer))

我正在尝试计算每个二元组出现的文档数量。如果我理解正确,术语文档矩阵将给出每个二元组在文档中出现的次数。但我只需要'1'-存在于文档中,'0'-不存在。

如何将术语文档矩阵转换为数据框或矩阵以获得这样的计数?

4

1 回答 1

0

TDM 是slam包中的 simple_triplet_matrix。其中对常用操作行行/列和有一些功能。

slam::row_sums(tdm_a.bigram>=1)

这应该告诉您每个二元组包含多少个文档。

于 2017-07-07T15:31:53.323 回答