问题标签 [sparkr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

762 问题

0 投票

1 回答

306 浏览

r - 如何将输出保存到 sparkR 中的特定路径

我正在使用 spark-submit 运行 pi.R 示例。输出显示在终端上，但我想将输出保存到 hdfs 路径。

上述命令用于运行 pi.r 示例

这是 pi.R 代码

我想将上述输出保存在 hdfs 位置。任何帮助将不胜感激

r hadoop sparkr

2015-08-26T06:32:43.017

0 投票

1 回答

62 浏览

r - 如何在 sparkR 中测试 DataFrame 中的条目

我在 sparkR 中有一个名为pgz. 它包含user_id和time。对于固定的 user_idk我得到

当我输入时head(y)，我可以看到 user_id 的一些时间k。“2005-02-04”、“2005-06-06”.. 它们都已排序，因此它们增加了。为此，user_id我想测试他是否times大于我设置的固定时间

我想保存所有时间大于修复时间的 user_id。如何才能做到这一点？

r sparkr

2015-08-27T09:46:44.480

0 投票

0 回答

203 浏览

r - 无法将 r 输出保存在 hdfs 中

我正在运行sparkR程序。我想将输出保存在hdfs.输出完美地保存在本地，但是如果我提到hdfs路径意味着它会引发错误。我正在从 shell 脚本执行。这是我的 shell 脚本：

这是我的 r 代码。

我尝试了很多方法来将输出保存在 hdfs 链接接收器、write.data、writetype 等中。我正在尝试通过提及 setwd() 来更改工作目录。此查询也不起作用。它会引发错误

setwd 中的错误（“hdfs://ip-172-31-41-199.us-west-2.compute.internal:8020/user/karun/output/”）：无法更改工作目录执行停止

我已经进行了 2 天的故障排除。任何帮助将不胜感激

r hadoop apache-spark sparkr

2015-08-27T10:27:52.900

0 投票

1 回答

28 浏览

r - 如何在不使其本地化的情况下获得总和值

在 SparkR 我有一个 DataFrameu包含

要计算 sparkR 的总和，我使用

现在summa是一个DataFrame。我想知道的值，summa我可以通过键入head(summa)或来获得该值，collect(summa)但这大约需要 2 分钟。我怎样才能更快地获得价值？或者我如何使用summa整数。

r sparkr

2015-08-27T11:33:38.767

0 投票

2 回答

723 浏览

r - 如何在 64 位模式下运行 sparkR

我已经安装了 Spark - 1.4.1（有 R 3.1.3 版本）。目前正在测试 SparkR 以运行统计模型。我能够运行一些示例代码，例如，

所以接下来，我将rJava包安装到SparkR. 但它没有安装。给出以下错误。

此外，当我SparkR在 shell 上运行命令时，它作为 32 位应用程序启动。我突出显示了版本信息，如下所示。

所以，请帮我解决这个问题。

r apache-spark sparkr rhadoop

2015-08-28T07:23:36.067

0 投票

1 回答

22 浏览

r - 在 sparkR 中从 DataFrame 中附加一个元素

我在 sparkR 中有一个名为“数据”的 DataFrame。'Data' 包含 'user'、'amount_spent' 和 'amount_won'。我想为用户 1 计算余额 = amount_spent - amount_won。

现在我计算总和

现在我计算用户 1 的余额

这一切都给了我一个正确的结果，但是我想附加“余额”并将其作为来自 DataFrame 的 'ynn' 的整数。我怎样才能做到这一点？如果我想为 100 个用户执行此操作，我需要做 100 次我假设的相同操作。

r sparkr

2015-08-28T13:01:15.443

0 投票

1 回答

350 浏览

r - 在 sparkR 中运行 tabulate 和 which.max 函数

我在 sparkRdata中有一个 DataFrame。它包含user = 12 311 12 320, ...和type = 1 2 3 4。我们有 10000 个用户。

例如，一个用户的 type = 1 2 3 4 4 4 2 4。我想为这个用户找到 type 中最常见的整数。在 RI 中可以这样解决

鉴于“用户”是一个 data.frame 而不是一个 DataFrame。我想为“数据”中的所有用户执行此操作。一种方法是这样

这在 R/sparkR 中运行，你为我提供了所有用户最常见的类型。但这需要时间，因为我将数据本地化以运行 which.max 和制表函数。有没有更聪明、更快捷的方法来做到这一点？

此外，如何同时找到两种最常见的类型？

r sparkr

2015-09-01T09:28:31.920

0 投票

1 回答

3903 浏览

shell - 无法使用 oozie 运行 shell 脚本

嗨，我正在尝试通过 oozie 运行 shell 脚本。在运行 shell 脚本时，我收到以下错误。

我的 job.properties 文件

我的工作流.xml

我的 shell 脚本 - script.sh

错误日志文件

==================================================== ================

现在调用 Shell 命令行 >>

我不知道如何解决这个问题。任何帮助将不胜感激。

shell hadoop oozie oozie-coordinator sparkr

2015-09-02T06:14:41.167

0 投票

0 回答

651 浏览

r - 在 YARN 上运行 SparkR 会输出“Rscript execution”错误

我在 Hadoop 2.7 集群上安装了 Spark 1.4.1。

我已经启动了 SparkR shell，没有错误：
/li>
我运行 R 命令没有错误（来自 spark.apache.org 的介绍性示例）：
/li>
当我运行命令时：
/li>

我在 15/09/02 10:08:29 在执行程序节点上收到以下错误：

“Rscript 执行错误：没有这样的文件或目录”。

任何提示将不胜感激。SparkR 以外的 Spark 任务在我的 YARN 集群上运行正常。R 3.2.1 已安装并在驱动程序节点上运行正常。

r hadoop-yarn sparkr

2015-09-02T08:34:03.140

0 投票

1 回答

495 浏览

shell - 线程“删除 Spark 本地目录”中的异常 java.lang.NullPointerException

嗨，我正在通过 shell 脚本运行 sparkr 程序。我将输入文件指向本地意味着它工作正常，但是当我指向 hdfs 意味着它抛出错误。

任何帮助将不胜感激。

shell hadoop apache-spark sparkr

2015-09-02T09:51:47.877

1 2 3 4 5 6 7 8 9 10

问题标签 [sparkr]

Reference