r - R文本挖掘 - 转换术语文档矩阵

Question

我使用以下方法创建了一个二元组列表：

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm_a.bigram = TermDocumentMatrix(docs_a,
                                control = list(tokenize = BigramTokenizer))

我正在尝试计算每个二元组出现的文档数量。如果我理解正确，术语文档矩阵将给出每个二元组在文档中出现的次数。但我只需要'1'-存在于文档中，'0'-不存在。

如何将术语文档矩阵转换为数据框或矩阵以获得这样的计数？

score 0 · Accepted Answer

TDM 是slam包中的 simple_triplet_matrix。其中对常用操作行行/列和有一些功能。

slam::row_sums(tdm_a.bigram>=1)

这应该告诉您每个二元组包含多少个文档。

r - R文本挖掘 - 转换术语文档矩阵

1 回答 1

Related

Reference