我正在处理 R 中的一个计算密集型包。这个包没有与 Spark 集群接口的替代实现;但是,它确实有一个可选参数来接收使用并行包创建的集群。我的问题是我可以使用 SparklyR 之类的东西连接到火花集群,然后使用该火花集群作为 makeCluster 命令的一部分传递到我的函数中吗?
我已经成功地让集群与并行工作,但我不知道如何或是否可以利用 spark 集群。
library(bnlearn)
library(parallel)
my_cluster <- makeCluster(3)
...
pc_structure <- pc.stable(train[,-1], cluster = my_cluster)
我的问题是我可以按如下方式连接到火花簇:
sc <- spark_connect(master = "yarn-client", config = config, version = '1.6.2')
然后利用 makeCluster() 函数中的连接(sc 对象)?