您可以直接从 GitHub 存储库安装:
if (!require('devtools')) install.packages('devtools')
devtools::install_github('apache/spark@v2.x.x', subdir='R/pkg')
v2.x.x
您应该选择与您使用的 Spark 版本相对应的标签(上)。您可以在项目页面上找到完整的标签列表,也可以使用GitHub API直接从 R 中找到:
jsonlite::fromJSON("https://api.github.com/repos/apache/spark/tags")$name
如果您从下载页面下载了二进制包,则 R 库位于R/lib/SparkR
子目录中。可以SparkR
直接安装使用。例如:
$ export SPARK_HOME=/path/to/spark/directory
$ cd $SPARK_HOME/R/pkg/
$ R -e "devtools::install('.')"
您还可以将 R lib 添加到.libPaths
(取自此处):
Sys.setenv(SPARK_HOME='/path/to/spark/directory')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'), .libPaths()))
最后,您sparkR
无需任何额外步骤即可使用 shell:
$ /path/to/spark/directory/bin/sparkR
编辑
根据Spark 2.1.0 发行说明,未来应该在 CRAN 上可用:
使用 Apache Spark 版本构建的独立可安装包。我们将很快将此提交给 CRAN。
您可以关注SPARK-15799查看进度。
编辑 2
虽然 SPARK-15799 已被合并,但满足 CRAN 要求被证明是具有挑战性的(参见例如关于2.2.2、2.3.1、2.4.0的讨论),并且这些包随后被删除(参见例如SparkR 已从 CRAN 中删除在 2018-05-01 上,CRAN SparkR 包被删除了?)。由于原始帖子中列出的结果方法仍然是最可靠的解决方案。
编辑 3
好的,SparkR
再次在 CRAN 上备份,v2.4.1。install.packages('SparkR')
应该再次工作(镜子可能需要几天时间才能反映这一点)