问题标签 [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2211 浏览

r - 如何在 sparkR 中使用 getItem(x, ...) 以及如何对列中的特定值进行子集化?

我有一个 sparkR 数据框,cust_sales我只需CQ98901282要从列中提取值cust_id,在我们使用的 R 中cust_sales$cust_id[3]

我的建议是我们可以getItem(x, ...)用来提取,如果是这样,参数“x”将是列cust_sales$cust_id

  1. 争论中会出现什么“......”
  2. 如果我的建议是错误的getItem(x, ...),那么在我的示例中它的用途是什么以及如何使用它。

    /li>

TIA,阿伦

0 投票
1 回答
3376 浏览

r - 无法运行程序“Rscript”

嗨,我正在使用 oozie 运行 sparkR 作业。当我运行 oozie 作业时,它显示找不到 Rscript 错误。错误详细信息如下

任何帮助将不胜感激。

0 投票
0 回答
278 浏览

r - SparkR 中 NULL 的 AVRO 格式警告

我在 RStudio 中使用 SparkR。我正在尝试使用hiveContextHive/HDFS. 数据看起来具有AVRO格式,并且似乎与NULL数据库中未正确声明 s 存在冲突。尝试使用SparkR::sql以下功能加载数据时收到此类警告:

任何人都可以提出任何克服此错误的解决方案吗?

0 投票
3 回答
1221 浏览

r - 在 SparkR 中对 DataFrame 中的特定列进行排序

在 SparkR 我有一个 DataFrame data。它包含time和。gameid

然后给出 ID = 1 4 1 1 215 985 ..., game= 1 5 1 10 和时间 2012-2-1, 2013-9-9, ... 现在game包含从 1 到 10 的数字的游戏类型。

对于给定的游戏类型,我想找到最短时间,这意味着第一次玩这个游戏。对于游戏类型 1,我这样做

这个新数据包含游戏类型 1 的所有数据。要找到我这样做的最短时间

但这不能在 sparkR 中运行。它说“S4 类型的对象不可子集”。

游戏 1 已在 2012-01-02、2013-05-04、2011-01-04、... 我想找到最短时间。

0 投票
2 回答
1831 浏览

r - 使用 SparkR 1.5 从 RStudio 中的 hdfs 读取大文件(纯文本、xml、json、csv)的选项

我是 Spark 的新手,想知道除了下面的选项之外,是否还有其他选项可以使用 SparkR 从 RStudio 读取存储在 hdfs 中的数据,或者我是否正确使用它们。数据可以是任何类型(纯文本、csv、json、xml 或任何包含关系表的数据库)和任何大小(1kb - 几个 gb)。

我知道应该不再使用 textFile(sc, path) ,但是除了 read.df 函数之外,还有其他可能读取此类数据吗?

以下代码使用 read.df 和 jsonFile 但 jsonFile 产生错误:

read.df 适用于 json,但我如何读取仅由新行分隔的日志消息等文本?例如

jsonFile 的错误是:

我不知道为什么 read.df 会抛出错误,因为我没有重新启动 SparkR 或调用 SparkR.stop()

对于相同的代码,除了使用 read.df 之外,我使用 SparkR:::textFile 函数和 sc 而不是 sqlContext(遵循 amplab 上过时的介绍

错误信息是:

这个错误看起来路径不正确,但我不知道为什么。

我目前使用的:

spark-1.5.0-bin-hadoop2.6 hadoop-2.6.0 Windows(8.1) R 版本 3.2.2 Rstudio 版本 0.99.484

我希望有人可以在这里给我一些关于这个问题的提示。

0 投票
1 回答
3260 浏览

r - 为什么 SparkR 在 CRAN R 包列表中不可用?

我通过以下链接检查了 CRAN 包列表中的 sparkR 包。

https://cran.r-project.org/web/packages/available_packages_by_date.html

此列表不包括 sparkR,因此无法通过安装 sparkR install.packages("package_name")

为什么 sparkR 没有在包列表中列出?

0 投票
1 回答
2723 浏览

r - 如何从 RStudio 初始化 YARN 上的新 Spark 上下文和执行程序编号

我正在与SparkR.

我可以在 YARN 上设置 Spark Context,并使用所需的数量executorsexecutor-cores这样的命令:

现在我正在尝试初始化一个新的 Spark 上下文,但是来自 RStudio,它比常规命令行更易于使用。

我发现要做到这一点,我需要使用sparkR.init()函数。master我设置了一个选项,yarn-client但如何指定num-executorsexecutor-cores?这是我堆叠的地方

0 投票
2 回答
185 浏览

r - 是否可以在未安装 R 解释器的情况下在 Spark 中运行 SparkR 程序?

我的问题是关于在没有 R 依赖的情况下在 spark 中运行 sparkR 程序的可行性。

换句话说,当机器中没有安装 R 解释器时,我可以在 spark 中运行以下程序吗?

0 投票
1 回答
438 浏览

r - 将 R 包运送到 SparkR 中的节点

嗨,我想知道是否有解决方案可以将 R 包与spark-submitSparkR 中的计算节点一起发送并使用它们?

0 投票
1 回答
55 浏览

sparkr - unionAll 函数无法在 sparkR 中运行

在 SparkR 中,我有一个 DataFrame data,它也包含在内id。我也有一个liste= 2 9 12 102 154 ... 1451where length(liste)=3001。我想要dataid 等于 liste 的条目。在 sparkR 我这样做

这 10 次迭代需要很长时间,大约 5 分钟。当我想做所有迭代时,即 3001,sparkR 说“错误 returnstatus==0 不正确”。应该如何解决这个问题?