问题标签 [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1150 浏览

r - 如何在 SparkR 中读取 json/csv 文件?

我在本地模式下部署了 Spark spark-1.4.1-bin-hadoop2.6,我正在从 HDFS 读取输入 JSON 文件。但是 SparkR dataFrame read.df 方法的方法无法从 HDFS 加载数据。

1) “read.df”错误信息

data <- read.df("/data/sample.json") # 来自 hdfs 的输入

感谢进阶。

0 投票
0 回答
305 浏览

shell - 库包不适用于 oozie

嗨,我正在使用 shell 脚本运行 oozie。在那个 shell 脚本中,我正在使用 sparkR 作业。每当运行 oozie 作业时,我都会遇到库错误。

这是我的错误。

我的 job.properties 文件

oozieProjectRoot=shell_example oozie.wf.application.path=${oozieProjectRoot}/apps/shell

我的工作流.xml

我的 shellscript 文件

我不知道如何解决这个问题。任何帮助将不胜感激......

0 投票
0 回答
244 浏览

apache-spark - 如何在 RStudio 中限制 Spark 的执行器核心?

我知道如果我使用的是 sparkR 命令外壳,我可以将其限制为一个执行器核心,如下所示:

在 RStudio 中,我可以像这样成功连接到我的集群:

我想我可以在那里传递一些神奇的参数来设置核心数量,但我不确定如何。https://spark.apache.org/docs/latest/api/R/sparkR.init.html没有多大帮助,但它让我明白了这一点:

和/或

这些成功连接但不限制核心。不确定我的魔法属性名称是否错误或其他?

0 投票
1 回答
122 浏览

r - SparkR 文档详细

我想在column类中使用函数SparkR,但我找不到函数的详细说明,如cbrt,hypotlike. 打字?cbrt会返回无用的信息。

我在哪里可以找到这些列函数的详细信息?

0 投票
1 回答
1209 浏览

r - Filter rows by timestamp in DataFrame of SparkR

I want to filter rows of DataFrame in SparkR by time stamp with format like the following:

Please note that original schema for TimeStamp column is String. Say I want to filter those time stamp before 03/01/2015 00:00:00, I think there might be two approaches to do this:

One is to mutate the column to timestamp like normal R with dplyr and lubridate:

But I failed to mutate columns of DataFrame since it's a S4 class Column not a vector.

Second approach might be to register the DataFrame as a table and then use SparkSQL to deal with timestamp type:

But since it's still a string comparison so it would give wrong result. What would be correct way to do this?

0 投票
1 回答
2072 浏览

r - 将 sparkr 收集到数据框中

我正在将一些数据加载到 sparkR(Spark 版本 1.4.0,在 fedora21 上运行)中,我在其中运行了一些产生三个不同数字的算法。我的算法需要一堆参数,我想在同一数据上运行不同的参数设置。输出格式应该是一个数据框(或 csv 列表),其列是算法参数和我的算法计算的三个数字,即

将是两个不同参数设置的输出。我在下面编写了脚本,该脚本在不同的参数设置上并行运行:它接受一个带有参数值的输入文件作为参数,对于上面的示例,它看起来像这样:

所以每行一个参数组合。

这是我的问题:不是每个参数设置都有一个,而是将所有数字组合成一个长列表。函数 cv_spark 返回一个 data.frame(基本上是一行)。如何告诉 spark 将 cv_spark 的输出组合到数据帧中(即执行 rbind 之类的操作?)或列表列表?

0 投票
1 回答
1179 浏览

r - SparkR 中用户定义的聚合函数

我有这样的邮件记录:

可以创建为DataFrame

我想找出谁已经回复了发送给他/她的 2 封最新邮件中的任何一封,因此使用摘要助手功能,dplyr我可以:

结果是:

现在我想用SparkR, 即 onDataFrame而不是 local来做到这一点data.frame。所以我尝试了:

然后我收到错误消息,说我的函数不适用于 S4 class DataFrame。如何正确地做到这一点SparkR?也欢迎使用sqlContext创建者sparkRHive.init或创建的SQL 查询的解决方案。sparkRSQL.init

0 投票
1 回答
719 浏览

shell - 为什么使用 Oozie 执行 SparkR 作业会给予 Permission denied?

我正在使用 oozie 通过 shell 脚本运行 sparkr。当我运行作业时,我面临权限问题:

整体日志..

我不知道如何解决这个问题。任何帮助将不胜感激。

0 投票
1 回答
91 浏览

sparkr - 如何减去DataFrame中的元素

在 SparkR 我有一个 DataFramedata包含id,amount_spentamount_won.

例如对于 id=1 我们有

输出是

到目前为止,我想知道一个固定的 id 是否比损失更多。金额可以忽略。

在 RI 中可以使其运行但需要时间。假设我们有 100 个 id。在 RI 做过这个

现在 w 简单地给我所有 id 的 1 和 0。在 sparkR 中,我想以更快的方式做到这一点。

0 投票
1 回答
592 浏览

r - sparkR 读取 csv 错误返回状态==0 不是 TRUE

我开始使用我的火花外壳

现在我正在尝试在 sparkR shell 中读取 csv

但每次我得到一个错误

错误:returnStatus == 0 不是 TRUE

启动 sparkR shell 时的日志如下: