1

我是 Spark 的新手,正在尝试运行 SparkR 页面中提到的示例。经过一番努力,我能够将 sparkR 安装到我的机器中,并且能够运行基本的 wordcount 示例。但是,当我尝试运行时:

library(SparkR) #works fine - 加载包 sc <- sparkR.init() #works fine sqlContext <- sparkRSQL.init(sc) #fails

它说,没有名为“sparkRSQL”的包。根据文档 sparkRSQL.init 是 sparkR 包中的一个函数。如果我在这里遗漏任何东西,请告诉我。

提前致谢。

4

1 回答 1

0

在尝试测试 sparkR 时,我已经遇到了这个问题。这部分缺乏文档。问题是主分支中不包含“sparkRSQL”和“sparkRHive”,因此您必须使用以下命令从“sparkr-sql”分支安装 sparkR 包:

library(devtools)
install_github("amplab-extras/SparkR-pkg", ref="sparkr-sql", subdir="pkg")

Amplab网站上有提示

DataFrame 是在 Spark 1.3 中引入的;可以在 Github 存储库 sparkr-sql 分支中找到 1.3 兼容的 SparkR 版本,其中包括用于处理 DataFrames 的初步 R API。要将 SparkR 与旧版本的 Spark 链接,请使用此页面上的存档或主分支。

于 2015-07-20T18:41:36.830 回答