我使用以下方法创建了一个二元组列表:
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm_a.bigram = TermDocumentMatrix(docs_a,
control = list(tokenize = BigramTokenizer))
我正在尝试计算每个二元组出现的文档数量。如果我理解正确,术语文档矩阵将给出每个二元组在文档中出现的次数。但我只需要'1'-存在于文档中,'0'-不存在。
如何将术语文档矩阵转换为数据框或矩阵以获得这样的计数?