1

我终于设法将我的堆栈设置为使用 RStudio 通过 sparklyR 连接到独立的 spark 集群(在 CassandraDB 中具有文件存储)。

我仍然无法解决的唯一问题是如何让我的 sparklyR 连接以利用集群上所有可用的工作节点(总共有 6 个)。每次我连接时,执行器摘要页面显示 sparklyR 连接仅使用 2 个工作程序(每个节点上有 1 个执行器)。

我已经尝试使用 config.yml 文件进行spark_connect调用,包括设置spark.executor.instances: 6and spark.num.executors: 6,但这并没有什么不同。我可以使用另一种设置来让 sparklyR 使用所有节点吗?我可以以某种方式传递所有工作人员 IP 地址的列表,spark_connect以便它连接到它们吗?

我的设置如下:RStudio:1.0.136,sparklyR:0.5.3-9000,Spark 版本(集群和本地):2.0.0。

4

1 回答 1

1

终于解决了!它是如此简单和明显,我不敢相信我错过了它。

config ( spark-defaults.conf) 文件具有以下设置:

spark.executor.cores: 5
spark.cores.max: 12

这当然意味着它不能启动超过 2 个(5 核)的执行程序,因为整个应用程序允许的最大核心数是 12。

于 2017-02-09T13:40:14.013 回答