apache-spark - 将 SparkR 连接到 spark 集群

Question

我有一个 Spark 集群在 10 台机器（1 - 10）上运行，主机在 1 台机器上。所有这些都在 CentOS 6.4 上运行。

我正在尝试使用 sparkR 将 jupyterhub 安装（由于在 CentOS 上安装的问题而在 ubuntu docker 内运行）连接到集群并获取 spark 上下文。

我正在使用的代码是

Sys.setenv(SPARK_HOME="/usr/local/spark-1.4.1-bin-hadoop2.4") 
library(SparkR)
sc <- sparkR.init(master="spark://<master-ip>:7077")

我得到的输出是

attaching package: ‘SparkR’
The following object is masked from ‘package:stats’:
filter
The following objects are masked from ‘package:base’:
intersect, sample, table
Launching java with spark-submit command spark-submit sparkr-shell/tmp/Rtmpzo6esw/backend_port29e74b83c7b3 Error in sparkR.init(master = "spark://10.10.5.51:7077"): JVM is not ready after 10 seconds

Error in sparkRSQL.init(sc): object 'sc' not found

我正在使用 Spark 1.4.1。spark 集群也在运行 CDH 5。

jupyterhub 安装可以通过 pyspark 连接到集群，我有使用 pyspark 的 python 笔记本。

有人可以告诉我我做错了什么吗？

score 0 · Accepted Answer

我有一个类似的问题，并且到处搜索但没有解决方案。您能否告诉我“jupyterhub 安装（由于在 CentOS 上安装问题而在 ubuntu docker 中运行）”是什么意思？

我们在 CentOS 6.4 上也有 4 个集群。我的另一个问题是如何使用 IPython 或 RStudio 之类的 IDE 与这 4 个服务器进行交互？我是否使用我的笔记本电脑远程连接到这些服务器（如果是，那么如何？）如果不是，那么其他解决方案可能是什么。

现在回答你的问题，我可以试一试。我认为您必须使用 --yarn-cluster 选项，如此处所述，我希望这可以帮助您解决问题。

干杯，阿什

apache-spark - 将 SparkR 连接到 spark 集群

1 回答 1

Related

Reference