请问您是否已将火花实际安装到该文件夹中?你能在文件夹中显示ls
命令的结果吗?/home/ubuntu/
在sessionInfo()
R?
让我与您分享我是如何使用自定义文件夹结构的。它在 Win,而不是 Ubuntu 上,但我想它不会有太大的不同。
使用最新的开发版本
如果你在 GitHub 上查看,RStudio 的人几乎每天都在更新 sparklyr,修复了许多报告的错误:
devtools::install_github("rstudio/sparklyr")
在我的情况下,只有安装sparklyr_0.4.12
解决了 Windows 下 Spark 2.0 的问题
检查 Spark 可用性
请检查您查询的版本是否可用:
spark_available_versions()
您应该会看到类似于下面一行的内容,这表明您打算使用的版本实际上可用于您的 sparklyr 包。
[13] 2.0.0 2.7 spark_install(版本=“2.0.0”,hadoop_version=“2.7”)
安装 Spark
只是为了保持顺序,您可能希望将 spark 安装在其他位置,而不是 RStudio 缓存的主文件夹。
选项(spark.install.dir = "c:/spark")
一旦您确定所需的版本可用,就该安装 spark
spark_install(version = "2.0.0", hadoop_version = "2.7")
我会检查它是否安装正确(ls
如果需要,将其更改为 shell)
cd c:/spark 目录(在 Win 中)| ls(在 Ubuntu 中)
现在指定要使用的版本的位置:
Sys.setenv(SPARK_HOME = 'C:/spark/spark-2.0.0-bin-hadoop2.7')
最后享受连接的创建:
sc <- spark_connect(master = "local")
我希望它有所帮助。