问题标签 [sparkr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

762 问题

0 投票

2 回答

1150 浏览

r - 如何在 SparkR 中读取 json/csv 文件？

我在本地模式下部署了 Spark spark-1.4.1-bin-hadoop2.6，我正在从 HDFS 读取输入 JSON 文件。但是 SparkR dataFrame read.df 方法的方法无法从 HDFS 加载数据。

1) “read.df”错误信息

data <- read.df("/data/sample.json") # 来自 hdfs 的输入

感谢进阶。

r hadoop apache-spark sparkr

2015-09-02T11:53:23.200

0 投票

0 回答

305 浏览

shell - 库包不适用于 oozie

嗨，我正在使用 shell 脚本运行 oozie。在那个 shell 脚本中，我正在使用 sparkR 作业。每当运行 oozie 作业时，我都会遇到库错误。

这是我的错误。

我的 job.properties 文件

oozieProjectRoot=shell_example oozie.wf.application.path=${oozieProjectRoot}/apps/shell

我的工作流.xml

我的 shellscript 文件

我不知道如何解决这个问题。任何帮助将不胜感激......

shell hadoop oozie oozie-coordinator sparkr

2015-09-03T07:50:00.280

0 投票

0 回答

244 浏览

apache-spark - 如何在 RStudio 中限制 Spark 的执行器核心？

我知道如果我使用的是 sparkR 命令外壳，我可以将其限制为一个执行器核心，如下所示：

在 RStudio 中，我可以像这样成功连接到我的集群：

我想我可以在那里传递一些神奇的参数来设置核心数量，但我不确定如何。https://spark.apache.org/docs/latest/api/R/sparkR.init.html没有多大帮助，但它让我明白了这一点：

和/或

这些成功连接但不限制核心。不确定我的魔法属性名称是否错误或其他？

apache-spark rstudio sparkr

2015-09-04T04:33:41.707

0 投票

1 回答

122 浏览

r - SparkR 文档详细

我想在column类中使用函数SparkR，但我找不到函数的详细说明，如cbrt,hypot或like. 打字?cbrt会返回无用的信息。

我在哪里可以找到这些列函数的详细信息？

r apache-spark sparkr

2015-09-06T05:54:04.167

0 投票

1 回答

1209 浏览

r - Filter rows by timestamp in DataFrame of SparkR

I want to filter rows of DataFrame in SparkR by time stamp with format like the following:

Please note that original schema for TimeStamp column is String. Say I want to filter those time stamp before 03/01/2015 00:00:00, I think there might be two approaches to do this:

One is to mutate the column to timestamp like normal R with dplyr and lubridate:

But I failed to mutate columns of DataFrame since it's a S4 class Column not a vector.

Second approach might be to register the DataFrame as a table and then use SparkSQL to deal with timestamp type:

But since it's still a string comparison so it would give wrong result. What would be correct way to do this?

r apache-spark apache-spark-sql sparkr

2015-09-06T08:03:33.853

0 投票

1 回答

2072 浏览

r - 将 sparkr 收集到数据框中

我正在将一些数据加载到 sparkR（Spark 版本 1.4.0，在 fedora21 上运行）中，我在其中运行了一些产生三个不同数字的算法。我的算法需要一堆参数，我想在同一数据上运行不同的参数设置。输出格式应该是一个数据框（或 csv 列表），其列是算法参数和我的算法计算的三个数字，即

将是两个不同参数设置的输出。我在下面编写了脚本，该脚本在不同的参数设置上并行运行：它接受一个带有参数值的输入文件作为参数，对于上面的示例，它看起来像这样：

所以每行一个参数组合。

这是我的问题：不是每个参数设置都有一个，而是将所有数字组合成一个长列表。函数 cv_spark 返回一个 data.frame（基本上是一行）。如何告诉 spark 将 cv_spark 的输出组合到数据帧中（即执行 rbind 之类的操作？）或列表列表？

r apache-spark sparkr

2015-09-06T13:06:29.523

0 投票

1 回答

1179 浏览

r - SparkR 中用户定义的聚合函数

我有这样的邮件记录：

可以创建为DataFrame：

我想找出谁已经回复了发送给他/她的 2 封最新邮件中的任何一封，因此使用摘要助手功能，dplyr我可以：

结果是：

现在我想用SparkR, 即 onDataFrame而不是 local来做到这一点data.frame。所以我尝试了：

然后我收到错误消息，说我的函数不适用于 S4 class DataFrame。如何正确地做到这一点SparkR？也欢迎使用sqlContext创建者sparkRHive.init或创建的SQL 查询的解决方案。sparkRSQL.init

r apache-spark apache-spark-sql sparkr

2015-09-07T19:46:09.313

0 投票

1 回答

719 浏览

shell - 为什么使用 Oozie 执行 SparkR 作业会给予 Permission denied？

我正在使用 oozie 通过 shell 脚本运行 sparkr。当我运行作业时，我面临权限问题：

整体日志..

我不知道如何解决这个问题。任何帮助将不胜感激。

shell hadoop apache-spark oozie sparkr

2015-09-08T05:57:14.530

0 投票

1 回答

91 浏览

sparkr - 如何减去DataFrame中的元素

在 SparkR 我有一个 DataFramedata包含id,amount_spent和amount_won.

例如对于 id=1 我们有

输出是

到目前为止，我想知道一个固定的 id 是否比损失更多。金额可以忽略。

在 RI 中可以使其运行但需要时间。假设我们有 100 个 id。在 RI 做过这个

现在 w 简单地给我所有 id 的 1 和 0。在 sparkR 中，我想以更快的方式做到这一点。

sparkr

2015-09-08T10:10:58.790

0 投票

1 回答

592 浏览

r - sparkR 读取 csv 错误返回状态==0 不是 TRUE

我开始使用我的火花外壳

现在我正在尝试在 sparkR shell 中读取 csv

但每次我得到一个错误

错误：returnStatus == 0 不是 TRUE

启动 sparkR shell 时的日志如下：

r csv apache-spark sparkr

2015-09-10T09:00:42.263

1 2 3 4 5 6 7 8 9 10

问题标签 [sparkr]

Reference