2

我在 R 中有一个代码,需要对其进行缩放以使用大数据。我为此使用 Spark,似乎最方便的软件包是 sparklyr。但是,我无法从 Spark 数据框创建 TermDocument 矩阵。任何帮助都会很棒。

input_key 是具有以下模式的数据框。

ID  Keywords
 1   A,B,C
 2   D,L,K
 3   P,O,L

我在 R 中的代码如下。

mycorpus <- input_key

corpus <- Corpus(VectorSource(mycorpus$Keywords))

path_matrix <- TermDocumentMatrix(corpus)
4

1 回答 1

1

这种直接的尝试是行不通的。Sparklyr 表只是底层 JVM 对象的视图,与通用 R 包不兼容。

虽然通过 调用任意 R 代码的某些功能sparklyr::spark_apply,但输入和输出必须是数据帧,并且不太可能转换为您的特定用例。

如果您致力于使用 Spark /sparklyr您应该考虑使用内置的 ML 转换器以及 3rd 方 Spark 包(如Spark CoreNLP 接口John Snow Labs Spark NLP )重写您的管道。

于 2019-02-01T17:57:56.513 回答