问题标签 [sparkr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

762 问题

0 投票

1 回答

2211 浏览

r - 如何在 sparkR 中使用 getItem(x, ...) 以及如何对列中的特定值进行子集化？

我有一个 sparkR 数据框，cust_sales我只需CQ98901282要从列中提取值cust_id，在我们使用的 R 中cust_sales$cust_id[3]。

我的建议是我们可以getItem(x, ...)用来提取，如果是这样，参数“x”将是列cust_sales$cust_id

争论中会出现什么“......”
如果我的建议是错误的getItem(x, ...)，那么在我的示例中它的用途是什么以及如何使用它。
/li>

TIA，阿伦

2015-09-10T10:28:13.157

0 投票

1 回答

3376 浏览

r - 无法运行程序“Rscript”

嗨，我正在使用 oozie 运行 sparkR 作业。当我运行 oozie 作业时，它显示找不到 Rscript 错误。错误详细信息如下

任何帮助将不胜感激。

r shell hadoop oozie sparkr

2015-09-11T07:43:26.220

0 投票

0 回答

278 浏览

r - SparkR 中 NULL 的 AVRO 格式警告

我在 RStudio 中使用 SparkR。我正在尝试使用hiveContext从Hive/HDFS. 数据看起来具有AVRO格式，并且似乎与NULL数据库中未正确声明 s 存在冲突。尝试使用SparkR::sql以下功能加载数据时收到此类警告：

任何人都可以提出任何克服此错误的解决方案吗？

r hadoop apache-spark apache-spark-sql sparkr

2015-09-14T13:52:17.487

0 投票

3 回答

1221 浏览

r - 在 SparkR 中对 DataFrame 中的特定列进行排序

在 SparkR 我有一个 DataFrame data。它包含time和。gameid

然后给出 ID = 1 4 1 1 215 985 ..., game= 1 5 1 10 和时间 2012-2-1, 2013-9-9, ... 现在game包含从 1 到 10 的数字的游戏类型。

对于给定的游戏类型，我想找到最短时间，这意味着第一次玩这个游戏。对于游戏类型 1，我这样做

这个新数据包含游戏类型 1 的所有数据。要找到我这样做的最短时间

但这不能在 sparkR 中运行。它说“S4 类型的对象不可子集”。

游戏 1 已在 2012-01-02、2013-05-04、2011-01-04、... 我想找到最短时间。

r apache-spark sparkr

2015-09-15T08:27:36.290

0 投票

2 回答

1831 浏览

r - 使用 SparkR 1.5 从 RStudio 中的 hdfs 读取大文件（纯文本、xml、json、csv）的选项

我是 Spark 的新手，想知道除了下面的选项之外，是否还有其他选项可以使用 SparkR 从 RStudio 读取存储在 hdfs 中的数据，或者我是否正确使用它们。数据可以是任何类型（纯文本、csv、json、xml 或任何包含关系表的数据库）和任何大小（1kb - 几个 gb）。

我知道应该不再使用 textFile(sc, path) ，但是除了 read.df 函数之外，还有其他可能读取此类数据吗？

以下代码使用 read.df 和 jsonFile 但 jsonFile 产生错误：

read.df 适用于 json，但我如何读取仅由新行分隔的日志消息等文本？例如

jsonFile 的错误是：

我不知道为什么 read.df 会抛出错误，因为我没有重新启动 SparkR 或调用 SparkR.stop()

对于相同的代码，除了使用 read.df 之外，我使用 SparkR:::textFile 函数和 sc 而不是 sqlContext（遵循 amplab 上过时的介绍）。

错误信息是：

这个错误看起来路径不正确，但我不知道为什么。

我目前使用的：

spark-1.5.0-bin-hadoop2.6 hadoop-2.6.0 Windows(8.1) R 版本 3.2.2 Rstudio 版本 0.99.484

我希望有人可以在这里给我一些关于这个问题的提示。

r sparkr apache-spark-1.5

2015-09-15T12:07:12.447

0 投票

1 回答

3260 浏览

r - 为什么 SparkR 在 CRAN R 包列表中不可用？

我通过以下链接检查了 CRAN 包列表中的 sparkR 包。

https://cran.r-project.org/web/packages/available_packages_by_date.html

此列表不包括 sparkR，因此无法通过安装 sparkR install.packages("package_name")。

为什么 sparkR 没有在包列表中列出？

r apache-spark package sparkr

2015-09-16T06:32:10.447

0 投票

1 回答

2723 浏览

r - 如何从 RStudio 初始化 YARN 上的新 Spark 上下文和执行程序编号

我正在与SparkR.

我可以在 YARN 上设置 Spark Context，并使用所需的数量executors和executor-cores这样的命令：

现在我正在尝试初始化一个新的 Spark 上下文，但是来自 RStudio，它比常规命令行更易于使用。

我发现要做到这一点，我需要使用sparkR.init()函数。master我设置了一个选项，yarn-client但如何指定num-executors或executor-cores？这是我堆叠的地方

r apache-spark rstudio rstudio-server sparkr

2015-09-16T13:48:34.180

0 投票

2 回答

185 浏览

r - 是否可以在未安装 R 解释器的情况下在 Spark 中运行 SparkR 程序？

我的问题是关于在没有 R 依赖的情况下在 spark 中运行 sparkR 程序的可行性。

换句话说，当机器中没有安装 R 解释器时，我可以在 spark 中运行以下程序吗？

r apache-spark sparkr

2015-09-17T04:41:00.943

0 投票

1 回答

438 浏览

r - 将 R 包运送到 SparkR 中的节点

嗨，我想知道是否有解决方案可以将 R 包与spark-submitSparkR 中的计算节点一起发送并使用它们？

r apache-spark hadoop2 sparkr

2015-09-17T08:11:24.847

0 投票

1 回答

55 浏览

sparkr - unionAll 函数无法在 sparkR 中运行

在 SparkR 中，我有一个 DataFrame data，它也包含在内id。我也有一个liste= 2 9 12 102 154 ... 1451where length(liste)=3001。我想要dataid 等于 liste 的条目。在 sparkR 我这样做

这 10 次迭代需要很长时间，大约 5 分钟。当我想做所有迭代时，即 3001，sparkR 说“错误 returnstatus==0 不正确”。应该如何解决这个问题？

sparkr

2015-09-18T08:27:31.160

1 2 3 4 5 6 7 8 9 10

问题标签 [sparkr]

Reference