我在 R 中有一个代码,需要对其进行缩放以使用大数据。我为此使用 Spark,似乎最方便的软件包是 sparklyr。但是,我无法从 Spark 数据框创建 TermDocument 矩阵。任何帮助都会很棒。
input_key 是具有以下模式的数据框。
ID Keywords
1 A,B,C
2 D,L,K
3 P,O,L
我在 R 中的代码如下。
mycorpus <- input_key
corpus <- Corpus(VectorSource(mycorpus$Keywords))
path_matrix <- TermDocumentMatrix(corpus)