问题标签 [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
6740 浏览

r - 如何将 csv 读入 sparkR 1.4 版?

随着spark(1.4) 的新版本发布,似乎有一个不错的前端接口可以sparkR名为sparkR. 在R for spark 的文档页面上,有一个命令可以将json文件作为 RDD 对象读取

我正在尝试从.csv文件中读取数据,就像在这个革命性的博客上描述的那样

注释说我需要一个 spark-csv 包来启用此操作。所以我用这个命令从这个github repo下载了这个包:

但是后来我在尝试读取.csv文件时遇到了这样的错误。

关于这个错误意味着什么以及如何解决这个问题的任何想法?

当然,我可以尝试以.csv标准方式阅读,例如:

然后我可以将 Rdata.frame转换为spark' ,DataFrame如下所示:

但这不是我喜欢的方式,而且真的很耗时。

0 投票
1 回答
375 浏览

sparkr - 有谁知道如何从 hbase 表在 sparkR 中创建数据框?

我正在尝试使用存储在 hbase 中的数据在 sparkR 中创建一个 spark 数据框。

有谁知道如何在 SQLontext 中指定数据源参数或任何其他方式来解决这个问题?

0 投票
1 回答
321 浏览

r - 如何使用 R 或 SparkR 调用 SparkMLLib 算法?

我正在尝试使用 SparkR 和 R 作为前端来开发机器学习模型。我想使用 Spark 的 MLLib,它适用于分布式数据帧。反正有没有从 R 调用 spark MLLib 算法?

0 投票
1 回答
884 浏览

r - 启动 spark R 上下文作业后 SparkR sql 上下文错误

我已经安装了 sparkR 包,并且可以运行其他计算作业,例如文档中的 pi 计数或字数计数。但是当我尝试启动 sparkRSql 作业时,它会出现错误。有人可以帮帮我吗?我正在使用 R 版本 3.2.0 和 Spark 1.3.1

0 投票
4 回答
2293 浏览

apache-spark - RStudio中的sparkR.init(master =“local”)中的SparkR错误

我已将 Spark 发行版中的 SparkR 包安装到 R 库中。我可以调用以下命令,它似乎工作正常:library(SparkR)

但是,当我尝试使用以下代码获取 Spark 上下文时,

一段时间后它失败并显示以下消息:

我已经设置了 JAVA_HOME,并且我有一个可以工作的 RStudio,我可以在其中访问其他包,如 ggplot2。我不知道为什么它不起作用,我什至不知道在哪里调查这个问题。

0 投票
1 回答
550 浏览

r - 有没有办法将 sparkR 与 MLlib 库连接起来?

我正在使用火花 1.4 版。R 用户有额外的 API - sparkR。

我设法启动 sparkR 并使用以下命令将 R 转换data.frame为 sparkDataFrame

我想知道现在是否有办法以某种方式与 spark MLlib 库连接以进行逻辑回归 - https://spark.apache.org/docs/latest/mllib-linear-methods.html或者是否可以重新转换DataFrame为常规data.frame?

0 投票
1 回答
2681 浏览

r - SparkR - 将数据帧转换为向量

我正在探索 SparkR 来计算分位数、平均值、类别频率等统计数据(源文件采用 Amazon S3 - csv 格式)。

我能够解析 csv 文件并创建一个数据框。但是,我无法将此 spark-dataframe 与标准 R 函数(如quantile(), mean()等)一起使用。

例如,这里是 R 数据框“测试”

上面的数据框产生正确的结果。但是,通过创建的数据框read.df()不适用于quantile()功能。

我的问题很简单,无论如何使用 SparkR 的数据框和原生 R 函数?或者如何将 SparkR 数据帧转换为向量。

提前致谢。

0 投票
1 回答
251 浏览

amazon-web-services - cannot create root directory in sparkR on AWS

making my first steps connecting sparkR to AWS cluster, I come across a problem:

I cannot create sparkcontext ('sc') in Rstudio -

and i get:

I've tried many users

any help would be appreciated Tnx Z

0 投票
1 回答
176 浏览

r - sparkR 安装问题 1.4.1

我在 Mac 上为 spark 1.4.0 和 1.4.1 尝试了以下操作。我正在下载包类型 = 'Source Code [可以构建多个 Hadoop 版本' 并下载类型http://ftp.wayne.edu/apache/spark/spark-1.4.1/spark-1.4.1.tgz

当我在终端中运行 ./bin/sparkR 时,我收到一条错误消息,提示“找不到 ~assembly/target/scala-2.10”。有任何想法吗?

0 投票
1 回答
663 浏览

r - sparkR 1.4.0 中的聚合统计信息

我是一个普通的 R 用户。

对于data.frame看起来像下面的一个,我想计算基本的聚合统计信息;最小值、第一分位数、中位数、第三分位数和最大值。以下代码使用reshape2包并dplyr在常规普通 R 中进行该操作是

我想知道如何在分布式数据帧(Spark 的DataFrame对象)上重现这样的操作。我已经sparkR设法计算出每个变量的最大值,但方式不够优雅。有没有办法以一种高效而顺利的方式做到这一点?

我的sparkR代码如下: