问题标签 [sparkr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在 SparkR 中读取 json/csv 文件?
我在本地模式下部署了 Spark spark-1.4.1-bin-hadoop2.6,我正在从 HDFS 读取输入 JSON 文件。但是 SparkR dataFrame read.df 方法的方法无法从 HDFS 加载数据。
1) “read.df”错误信息
data <- read.df("/data/sample.json") # 来自 hdfs 的输入
感谢进阶。
shell - 库包不适用于 oozie
嗨,我正在使用 shell 脚本运行 oozie。在那个 shell 脚本中,我正在使用 sparkR 作业。每当运行 oozie 作业时,我都会遇到库错误。
这是我的错误。
我的 job.properties 文件
oozieProjectRoot=shell_example oozie.wf.application.path=${oozieProjectRoot}/apps/shell
我的工作流.xml
我的 shellscript 文件
我不知道如何解决这个问题。任何帮助将不胜感激......
apache-spark - 如何在 RStudio 中限制 Spark 的执行器核心?
我知道如果我使用的是 sparkR 命令外壳,我可以将其限制为一个执行器核心,如下所示:
在 RStudio 中,我可以像这样成功连接到我的集群:
我想我可以在那里传递一些神奇的参数来设置核心数量,但我不确定如何。https://spark.apache.org/docs/latest/api/R/sparkR.init.html没有多大帮助,但它让我明白了这一点:
和/或
这些成功连接但不限制核心。不确定我的魔法属性名称是否错误或其他?
r - SparkR 文档详细
我想在column
类中使用函数SparkR
,但我找不到函数的详细说明,如cbrt
,hypot
或like
. 打字?cbrt
会返回无用的信息。
我在哪里可以找到这些列函数的详细信息?
r - Filter rows by timestamp in DataFrame of SparkR
I want to filter rows of DataFrame
in SparkR by time stamp with format like the following:
Please note that original schema for TimeStamp
column is String
. Say I want to filter those time stamp before 03/01/2015 00:00:00
, I think there might be two approaches to do this:
One is to mutate the column to timestamp
like normal R with dplyr
and lubridate
:
But I failed to mutate columns of DataFrame
since it's a S4 class Column
not a vector.
Second approach might be to register the DataFrame
as a table and then use SparkSQL
to deal with timestamp
type:
But since it's still a string comparison so it would give wrong result. What would be correct way to do this?
r - 将 sparkr 收集到数据框中
我正在将一些数据加载到 sparkR(Spark 版本 1.4.0,在 fedora21 上运行)中,我在其中运行了一些产生三个不同数字的算法。我的算法需要一堆参数,我想在同一数据上运行不同的参数设置。输出格式应该是一个数据框(或 csv 列表),其列是算法参数和我的算法计算的三个数字,即
将是两个不同参数设置的输出。我在下面编写了脚本,该脚本在不同的参数设置上并行运行:它接受一个带有参数值的输入文件作为参数,对于上面的示例,它看起来像这样:
所以每行一个参数组合。
这是我的问题:不是每个参数设置都有一个,而是将所有数字组合成一个长列表。函数 cv_spark 返回一个 data.frame(基本上是一行)。如何告诉 spark 将 cv_spark 的输出组合到数据帧中(即执行 rbind 之类的操作?)或列表列表?
r - SparkR 中用户定义的聚合函数
我有这样的邮件记录:
可以创建为DataFrame
:
我想找出谁已经回复了发送给他/她的 2 封最新邮件中的任何一封,因此使用摘要助手功能,dplyr
我可以:
结果是:
现在我想用SparkR
, 即 onDataFrame
而不是 local来做到这一点data.frame
。所以我尝试了:
然后我收到错误消息,说我的函数不适用于 S4 class DataFrame
。如何正确地做到这一点SparkR
?也欢迎使用sqlContext
创建者sparkRHive.init
或创建的SQL 查询的解决方案。sparkRSQL.init
shell - 为什么使用 Oozie 执行 SparkR 作业会给予 Permission denied?
我正在使用 oozie 通过 shell 脚本运行 sparkr。当我运行作业时,我面临权限问题:
整体日志..
我不知道如何解决这个问题。任何帮助将不胜感激。
sparkr - 如何减去DataFrame中的元素
在 SparkR 我有一个 DataFramedata
包含id
,amount_spent
和amount_won
.
例如对于 id=1 我们有
输出是
到目前为止,我想知道一个固定的 id 是否比损失更多。金额可以忽略。
在 RI 中可以使其运行但需要时间。假设我们有 100 个 id。在 RI 做过这个
现在 w 简单地给我所有 id 的 1 和 0。在 sparkR 中,我想以更快的方式做到这一点。
r - sparkR 读取 csv 错误返回状态==0 不是 TRUE
我开始使用我的火花外壳
现在我正在尝试在 sparkR shell 中读取 csv
但每次我得到一个错误
错误:returnStatus == 0 不是 TRUE
启动 sparkR shell 时的日志如下: