问题标签 [sparkr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何将输出保存到 sparkR 中的特定路径
我正在使用 spark-submit 运行 pi.R 示例。输出显示在终端上,但我想将输出保存到 hdfs 路径。
上述命令用于运行 pi.r 示例
这是 pi.R 代码
我想将上述输出保存在 hdfs 位置。任何帮助将不胜感激
r - 如何在 sparkR 中测试 DataFrame 中的条目
我在 sparkR 中有一个名为pgz
. 它包含user_id
和time
。对于固定的 user_idk
我得到
当我输入时head(y)
,我可以看到 user_id 的一些时间k
。“2005-02-04”、“2005-06-06”.. 它们都已排序,因此它们增加了。为此,user_id
我想测试他是否times
大于我设置的固定时间
我想保存所有时间大于修复时间的 user_id。如何才能做到这一点?
r - 无法将 r 输出保存在 hdfs 中
我正在运行sparkR
程序。我想将输出保存在hdfs
.输出完美地保存在本地,但是如果我提到hdfs
路径意味着它会引发错误。我正在从 shell 脚本执行。这是我的 shell 脚本:
这是我的 r 代码。
我尝试了很多方法来将输出保存在 hdfs 链接接收器、write.data、writetype 等中。我正在尝试通过提及 setwd() 来更改工作目录。此查询也不起作用。它会引发错误
setwd 中的错误(“hdfs://ip-172-31-41-199.us-west-2.compute.internal:8020/user/karun/output/”):无法更改工作目录执行停止
我已经进行了 2 天的故障排除。任何帮助将不胜感激
r - 如何在不使其本地化的情况下获得总和值
在 SparkR 我有一个 DataFrameu
包含
要计算 sparkR 的总和,我使用
现在summa
是一个DataFrame。我想知道 的值,summa
我可以通过键入head(summa)
或来获得该值,collect(summa)
但这大约需要 2 分钟。我怎样才能更快地获得价值?或者我如何使用summa
整数。
r - 在 sparkR 中从 DataFrame 中附加一个元素
我在 sparkR 中有一个名为“数据”的 DataFrame。'Data' 包含 'user'、'amount_spent' 和 'amount_won'。我想为用户 1 计算余额 = amount_spent - amount_won。
现在我计算总和
现在我计算用户 1 的余额
这一切都给了我一个正确的结果,但是我想附加“余额”并将其作为来自 DataFrame 的 'ynn' 的整数。我怎样才能做到这一点?如果我想为 100 个用户执行此操作,我需要做 100 次我假设的相同操作。
r - 在 sparkR 中运行 tabulate 和 which.max 函数
我在 sparkRdata
中有一个 DataFrame。它包含user = 12 311 12 320, ...
和type = 1 2 3 4
。我们有 10000 个用户。
例如,一个用户的 type = 1 2 3 4 4 4 2 4。我想为这个用户找到 type 中最常见的整数。在 RI 中可以这样解决
鉴于“用户”是一个 data.frame 而不是一个 DataFrame。我想为“数据”中的所有用户执行此操作。一种方法是这样
这在 R/sparkR 中运行,你为我提供了所有用户最常见的类型。但这需要时间,因为我将数据本地化以运行 which.max 和制表函数。有没有更聪明、更快捷的方法来做到这一点?
此外,如何同时找到两种最常见的类型?
shell - 无法使用 oozie 运行 shell 脚本
嗨,我正在尝试通过 oozie 运行 shell 脚本。在运行 shell 脚本时,我收到以下错误。
我的 job.properties 文件
我的工作流.xml
我的 shell 脚本 - script.sh
错误日志文件
==================================================== ================
现在调用 Shell 命令行 >>
我不知道如何解决这个问题。任何帮助将不胜感激。
r - 在 YARN 上运行 SparkR 会输出“Rscript execution”错误
我在 Hadoop 2.7 集群上安装了 Spark 1.4.1。
我已经启动了 SparkR shell,没有错误:
/li>我运行 R 命令没有错误(来自 spark.apache.org 的介绍性示例):
/li>当我运行命令时:
/li>
我在 15/09/02 10:08:29 在执行程序节点上收到以下错误:
“Rscript 执行错误:没有这样的文件或目录”。
任何提示将不胜感激。SparkR 以外的 Spark 任务在我的 YARN 集群上运行正常。R 3.2.1 已安装并在驱动程序节点上运行正常。
shell - 线程“删除 Spark 本地目录”中的异常 java.lang.NullPointerException
嗨,我正在通过 shell 脚本运行 sparkr 程序。我将输入文件指向本地意味着它工作正常,但是当我指向 hdfs 意味着它抛出错误。
任何帮助将不胜感激。