我终于设法将我的堆栈设置为使用 RStudio 通过 sparklyR 连接到独立的 spark 集群(在 CassandraDB 中具有文件存储)。
我仍然无法解决的唯一问题是如何让我的 sparklyR 连接以利用集群上所有可用的工作节点(总共有 6 个)。每次我连接时,执行器摘要页面显示 sparklyR 连接仅使用 2 个工作程序(每个节点上有 1 个执行器)。
我已经尝试使用 config.yml 文件进行spark_connect
调用,包括设置spark.executor.instances: 6
and spark.num.executors: 6
,但这并没有什么不同。我可以使用另一种设置来让 sparklyR 使用所有节点吗?我可以以某种方式传递所有工作人员 IP 地址的列表,spark_connect
以便它连接到它们吗?
我的设置如下:RStudio:1.0.136,sparklyR:0.5.3-9000,Spark 版本(集群和本地):2.0.0。