问题标签 [sparkr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

762 问题

0 投票

3 回答

6740 浏览

r - 如何将 csv 读入 sparkR 1.4 版？

随着spark(1.4) 的新版本发布，似乎有一个不错的前端接口可以spark从R名为sparkR. 在R for spark 的文档页面上，有一个命令可以将json文件作为 RDD 对象读取

我正在尝试从.csv文件中读取数据，就像在这个革命性的博客上描述的那样

注释说我需要一个 spark-csv 包来启用此操作。所以我用这个命令从这个github repo下载了这个包：

但是后来我在尝试读取.csv文件时遇到了这样的错误。

关于这个错误意味着什么以及如何解决这个问题的任何想法？

当然，我可以尝试以.csv标准方式阅读，例如：

然后我可以将 Rdata.frame转换为spark' ，DataFrame如下所示：

但这不是我喜欢的方式，而且真的很耗时。

r csv apache-spark apache-spark-sql sparkr

2015-07-03T10:50:39.827

0 投票

1 回答

375 浏览

sparkr - 有谁知道如何从 hbase 表在 sparkR 中创建数据框？

我正在尝试使用存储在 hbase 中的数据在 sparkR 中创建一个 spark 数据框。

有谁知道如何在 SQLontext 中指定数据源参数或任何其他方式来解决这个问题？

sparkr

2015-07-09T02:08:57.723

0 投票

1 回答

321 浏览

r - 如何使用 R 或 SparkR 调用 SparkMLLib 算法？

我正在尝试使用 SparkR 和 R 作为前端来开发机器学习模型。我想使用 Spark 的 MLLib，它适用于分布式数据帧。反正有没有从 R 调用 spark MLLib 算法？

r apache-spark sparkr

2015-07-09T06:44:55.597

0 投票

1 回答

884 浏览

r - 启动 spark R 上下文作业后 SparkR sql 上下文错误

我已经安装了 sparkR 包，并且可以运行其他计算作业，例如文档中的 pi 计数或字数计数。但是当我尝试启动 sparkRSql 作业时，它会出现错误。有人可以帮帮我吗？我正在使用 R 版本 3.2.0 和 Spark 1.3.1

r apache-spark sparkr

2015-07-09T13:00:23.477

0 投票

4 回答

2293 浏览

apache-spark - RStudio中的sparkR.init（master =“local”）中的SparkR错误

我已将 Spark 发行版中的 SparkR 包安装到 R 库中。我可以调用以下命令，它似乎工作正常：library(SparkR)

但是，当我尝试使用以下代码获取 Spark 上下文时，

一段时间后它失败并显示以下消息：

我已经设置了 JAVA_HOME，并且我有一个可以工作的 RStudio，我可以在其中访问其他包，如 ggplot2。我不知道为什么它不起作用，我什至不知道在哪里调查这个问题。

apache-spark rstudio sparkr

2015-07-09T15:37:42.860

0 投票

1 回答

550 浏览

r - 有没有办法将 sparkR 与 MLlib 库连接起来？

我正在使用火花 1.4 版。R 用户有额外的 API - sparkR。

我设法启动 sparkR 并使用以下命令将 R 转换data.frame为 sparkDataFrame

我想知道现在是否有办法以某种方式与 spark MLlib 库连接以进行逻辑回归 - https://spark.apache.org/docs/latest/mllib-linear-methods.html或者是否可以重新转换DataFrame为常规data.frame?

r apache-spark sparkr

2015-07-14T13:18:02.990

0 投票

1 回答

2681 浏览

r - SparkR - 将数据帧转换为向量

我正在探索 SparkR 来计算分位数、平均值、类别频率等统计数据（源文件采用 Amazon S3 - csv 格式）。

我能够解析 csv 文件并创建一个数据框。但是，我无法将此 spark-dataframe 与标准 R 函数（如quantile(), mean()等）一起使用。

例如，这里是 R 数据框“测试”

上面的数据框产生正确的结果。但是，通过创建的数据框read.df()不适用于quantile()功能。

我的问题很简单，无论如何使用 SparkR 的数据框和原生 R 函数？或者如何将 SparkR 数据帧转换为向量。

提前致谢。

r apache-spark-sql sparkr

2015-07-15T13:02:47.460

0 投票

1 回答

251 浏览

amazon-web-services - cannot create root directory in sparkR on AWS

making my first steps connecting sparkR to AWS cluster, I come across a problem:

I cannot create sparkcontext ('sc') in Rstudio -

and i get:

I've tried many users

any help would be appreciated Tnx Z

amazon-web-services rstudio sparkr

2015-07-16T13:33:42.080

0 投票

1 回答

176 浏览

r - sparkR 安装问题 1.4.1

我在 Mac 上为 spark 1.4.0 和 1.4.1 尝试了以下操作。我正在下载包类型 = 'Source Code [可以构建多个 Hadoop 版本' 并下载类型http://ftp.wayne.edu/apache/spark/spark-1.4.1/spark-1.4.1.tgz。

当我在终端中运行 ./bin/sparkR 时，我收到一条错误消息，提示“找不到 ~assembly/target/scala-2.10”。有任何想法吗？

r sparkr

2015-07-16T14:21:36.140

0 投票

1 回答

663 浏览

r - sparkR 1.4.0 中的聚合统计信息

我是一个普通的 R 用户。

对于data.frame看起来像下面的一个，我想计算基本的聚合统计信息；最小值、第一分位数、中位数、第三分位数和最大值。以下代码使用reshape2包并dplyr在常规普通 R 中进行该操作是

我想知道如何在分布式数据帧（Spark 的DataFrame对象）上重现这样的操作。我已经sparkR设法计算出每个变量的最大值，但方式不够优雅。有没有办法以一种高效而顺利的方式做到这一点？

我的sparkR代码如下：

r apache-spark sparkr

2015-07-16T15:04:00.647

1 2 3 4 5 6 7 8 9 10