rstudio - 在 Rstudio 中将 sparklyr 连接到远程 sparkR 时出错

Question

我尝试在本地 RStudio 会话中使用以下命令连接到 sparkR -

sc <- spark_connect(master = "spark://x.x.x.x:7077",
spark_home = "/home/hduser/spark-2.0.0-bin-hadoop2.7", version="2.0.0", config = list())

但是，我收到以下错误 -

Error in start_shell(master = master, spark_home = spark_home, spark_version = version,  : 
SPARK_HOME directory '/home/hduser/spark-2.0.0-bin-hadoop2.7' not found

有什么帮助吗？

提前致谢

score 0 · Accepted Answer

请问您是否已将火花实际安装到该文件夹中？你能在文件夹中显示ls命令的结果吗？/home/ubuntu/

在sessionInfo()R?

让我与您分享我是如何使用自定义文件夹结构的。它在 Win，而不是 Ubuntu 上，但我想它不会有太大的不同。

使用最新的开发版本

如果你在 GitHub 上查看，RStudio 的人几乎每天都在更新 sparklyr，修复了许多报告的错误：

devtools::install_github("rstudio/sparklyr")

在我的情况下，只有安装sparklyr_0.4.12解决了 Windows 下 Spark 2.0 的问题

检查 Spark 可用性

请检查您查询的版本是否可用：

spark_available_versions()

您应该会看到类似于下面一行的内容，这表明您打算使用的版本实际上可用于您的 sparklyr 包。

[13] 2.0.0 2.7 spark_install（版本=“2.0.0”，hadoop_version=“2.7”）

安装 Spark

只是为了保持顺序，您可能希望将 spark 安装在其他位置，而不是 RStudio 缓存的主文件夹。

选项（spark.install.dir = "c:/spark"）

一旦您确定所需的版本可用，就该安装 spark

spark_install(version = "2.0.0", hadoop_version = "2.7")

我会检查它是否安装正确（ls如果需要，将其更改为 shell）

cd c:/spark 目录（在 Win 中）| ls（在 Ubuntu 中）

现在指定要使用的版本的位置：

Sys.setenv(SPARK_HOME = 'C:/spark/spark-2.0.0-bin-hadoop2.7')

最后享受连接的创建：

sc <- spark_connect(master = "local")

我希望它有所帮助。

rstudio - 在 Rstudio 中将 sparklyr 连接到远程 sparkR 时出错

1 回答 1

使用最新的开发版本

检查 Spark 可用性

安装 Spark

Related

Reference