问题标签 [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
306 浏览

r - 如何将输出保存到 sparkR 中的特定路径

我正在使用 spark-submit 运行 pi.R 示例。输出显示在终端上,但我想将输出保存到 hdfs 路径。

上述命令用于运行 pi.r 示例

这是 pi.R 代码

我想将上述输出保存在 hdfs 位置。任何帮助将不胜感激

0 投票
1 回答
62 浏览

r - 如何在 sparkR 中测试 DataFrame 中的条目

我在 sparkR 中有一个名为pgz. 它包含user_idtime。对于固定的 user_idk我得到

当我输入时head(y),我可以看到 user_id 的一些时间k。“2005-02-04”、“2005-06-06”.. 它们都已排序,因此它们增加了。为此,user_id我想测试他是否times大于我设置的固定时间

我想保存所有时间大于修复时间的 user_id。如何才能做到这一点?

0 投票
0 回答
203 浏览

r - 无法将 r 输出保存在 hdfs 中

我正在运行sparkR程序。我想将输出保存在hdfs.输出完美地保存在本地,但是如果我提到hdfs路径意味着它会引发错误。我正在从 shell 脚本执行。这是我的 shell 脚本:

这是我的 r 代码。

我尝试了很多方法来将输出保存在 hdfs 链接接收器、write.data、writetype 等中。我正在尝试通过提及 setwd() 来更改工作目录。此查询也不起作用。它会引发错误

setwd 中的错误(“hdfs://ip-172-31-41-199.us-west-2.compute.internal:8020/user/karun/output/”):无法更改工作目录执行停止

我已经进行了 2 天的故障排除。任何帮助将不胜感激

0 投票
1 回答
28 浏览

r - 如何在不使其本地化的情况下获得总和值

在 SparkR 我有一个 DataFrameu包含

要计算 sparkR 的总和,我使用

现在summa是一个DataFrame。我想知道 的值,summa我可以通过键入head(summa)或来获得该值,collect(summa)但这大约需要 2 分钟。我怎样才能更快地获得价值?或者我如何使用summa整数。

0 投票
2 回答
723 浏览

r - 如何在 64 位模式下运行 sparkR

我已经安装了 Spark - 1.4.1(有 R 3.1.3 版本)。目前正在测试 SparkR 以运行统计模型。我能够运行一些示例代码,例如,

所以接下来,我将rJava包安装到SparkR. 但它没有安装。给出以下错误。

此外,当我SparkR在 shell 上运行命令时,它作为 32 位应用程序启动。我突出显示了版本信息,如下所示。 在此处输入图像描述

所以,请帮我解决这个问题。

0 投票
1 回答
22 浏览

r - 在 sparkR 中从 DataFrame 中附加一个元素

我在 sparkR 中有一个名为“数据”的 DataFrame。'Data' 包含 'user'、'amount_spent' 和 'amount_won'。我想为用户 1 计算余额 = amount_spent - amount_won。

现在我计算总和

现在我计算用户 1 的余额

这一切都给了我一个正确的结果,但是我想附加“余额”并将其作为来自 DataFrame 的 'ynn' 的整数。我怎样才能做到这一点?如果我想为 100 个用户执行此操作,我需要做 100 次我假设的相同操作。

0 投票
1 回答
350 浏览

r - 在 sparkR 中运行 tabulate 和 which.max 函数

我在 sparkRdata中有一个 DataFrame。它包含user = 12 311 12 320, ...type = 1 2 3 4。我们有 10000 个用户。

例如,一个用户的 type = 1 2 3 4 4 4 2 4。我想为这个用户找到 type 中最常见的整数。在 RI 中可以这样解决

鉴于“用户”是一个 data.frame 而不是一个 DataFrame。我想为“数据”中的所有用户执行此操作。一种方法是这样

这在 R/sparkR 中运行,你为我提供了所有用户最常见的类型。但这需要时间,因为我将数据本地化以运行 which.max 和制表函数。有没有更聪明、更快捷的方法来做到这一点?

此外,如何同时找到两种最常见的类型?

0 投票
1 回答
3903 浏览

shell - 无法使用 oozie 运行 shell 脚本

嗨,我正在尝试通过 oozie 运行 shell 脚本。在运行 shell 脚本时,我收到以下错误。

我的 job.properties 文件

我的工作流.xml

我的 shell 脚本 - script.sh

错误日志文件

==================================================== ================

现在调用 Shell 命令行 >>

我不知道如何解决这个问题。任何帮助将不胜感激。

0 投票
0 回答
651 浏览

r - 在 YARN 上运行 SparkR 会输出“Rscript execution”错误

我在 Hadoop 2.7 集群上安装了 Spark 1.4.1。

  1. 我已经启动了 SparkR shell,没有错误:

    /li>
  2. 我运行 R 命令没有错误(来自 spark.apache.org 的介绍性示例):

    /li>
  3. 当我运行命令时:

    /li>

我在 15/09/02 10:08:29 在执行程序节点上收到以下错误:

“Rscript 执行错误:没有这样的文件或目录”。

任何提示将不胜感激。SparkR 以外的 Spark 任务在我的 YARN 集群上运行正常。R 3.2.1 已安装并在驱动程序节点上运行正常。

0 投票
1 回答
495 浏览

shell - 线程“删除 Spark 本地目录”中的异常 java.lang.NullPointerException

嗨,我正在通过 shell 脚本运行 sparkr 程序。我将输入文件指向本地意味着它工作正常,但是当我指向 hdfs 意味着它抛出错误。

任何帮助将不胜感激。