apache-spark - SparklyR 连接到独立的 Spark 集群，仅连接到 2/6 个工作人员

Question

我终于设法将我的堆栈设置为使用 RStudio 通过 sparklyR 连接到独立的 spark 集群（在 CassandraDB 中具有文件存储）。

我仍然无法解决的唯一问题是如何让我的 sparklyR 连接以利用集群上所有可用的工作节点（总共有 6 个）。每次我连接时，执行器摘要页面显示 sparklyR 连接仅使用 2 个工作程序（每个节点上有 1 个执行器）。

我已经尝试使用 config.yml 文件进行spark_connect调用，包括设置spark.executor.instances: 6and spark.num.executors: 6，但这并没有什么不同。我可以使用另一种设置来让 sparklyR 使用所有节点吗？我可以以某种方式传递所有工作人员 IP 地址的列表，spark_connect以便它连接到它们吗？

我的设置如下：RStudio：1.0.136，sparklyR：0.5.3-9000，Spark 版本（集群和本地）：2.0.0。

score 1 · Accepted Answer

终于解决了！它是如此简单和明显，我不敢相信我错过了它。

config ( spark-defaults.conf) 文件具有以下设置：

spark.executor.cores: 5
spark.cores.max: 12

这当然意味着它不能启动超过 2 个（5 核）的执行程序，因为整个应用程序允许的最大核心数是 12。

apache-spark - SparklyR 连接到独立的 Spark 集群，仅连接到 2/6 个工作人员

1 回答 1

Related

Reference