问题标签 [sparkr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在 sparkR 中使用 getItem(x, ...) 以及如何对列中的特定值进行子集化?
我有一个 sparkR 数据框,cust_sales
我只需CQ98901282
要从列中提取值cust_id
,在我们使用的 R 中cust_sales$cust_id[3]
。
我的建议是我们可以getItem(x, ...)
用来提取,如果是这样,参数“x”将是列cust_sales$cust_id
- 争论中会出现什么“......”
如果我的建议是错误的
/li>getItem(x, ...)
,那么在我的示例中它的用途是什么以及如何使用它。
TIA,阿伦
r - 无法运行程序“Rscript”
嗨,我正在使用 oozie 运行 sparkR 作业。当我运行 oozie 作业时,它显示找不到 Rscript 错误。错误详细信息如下
任何帮助将不胜感激。
r - SparkR 中 NULL 的 AVRO 格式警告
我在 RStudio 中使用 SparkR。我正在尝试使用hiveContext
从Hive/HDFS
. 数据看起来具有AVRO
格式,并且似乎与NULL
数据库中未正确声明 s 存在冲突。尝试使用SparkR::sql
以下功能加载数据时收到此类警告:
任何人都可以提出任何克服此错误的解决方案吗?
r - 在 SparkR 中对 DataFrame 中的特定列进行排序
在 SparkR 我有一个 DataFrame data
。它包含time
和。game
id
然后给出 ID = 1 4 1 1 215 985 ..., game
= 1 5 1 10 和时间 2012-2-1, 2013-9-9, ... 现在game
包含从 1 到 10 的数字的游戏类型。
对于给定的游戏类型,我想找到最短时间,这意味着第一次玩这个游戏。对于游戏类型 1,我这样做
这个新数据包含游戏类型 1 的所有数据。要找到我这样做的最短时间
但这不能在 sparkR 中运行。它说“S4 类型的对象不可子集”。
游戏 1 已在 2012-01-02、2013-05-04、2011-01-04、... 我想找到最短时间。
r - 使用 SparkR 1.5 从 RStudio 中的 hdfs 读取大文件(纯文本、xml、json、csv)的选项
我是 Spark 的新手,想知道除了下面的选项之外,是否还有其他选项可以使用 SparkR 从 RStudio 读取存储在 hdfs 中的数据,或者我是否正确使用它们。数据可以是任何类型(纯文本、csv、json、xml 或任何包含关系表的数据库)和任何大小(1kb - 几个 gb)。
我知道应该不再使用 textFile(sc, path) ,但是除了 read.df 函数之外,还有其他可能读取此类数据吗?
以下代码使用 read.df 和 jsonFile 但 jsonFile 产生错误:
read.df 适用于 json,但我如何读取仅由新行分隔的日志消息等文本?例如
jsonFile 的错误是:
我不知道为什么 read.df 会抛出错误,因为我没有重新启动 SparkR 或调用 SparkR.stop()
对于相同的代码,除了使用 read.df 之外,我使用 SparkR:::textFile 函数和 sc 而不是 sqlContext(遵循 amplab 上过时的介绍)。
错误信息是:
这个错误看起来路径不正确,但我不知道为什么。
我目前使用的:
spark-1.5.0-bin-hadoop2.6 hadoop-2.6.0 Windows(8.1) R 版本 3.2.2 Rstudio 版本 0.99.484
我希望有人可以在这里给我一些关于这个问题的提示。
r - 为什么 SparkR 在 CRAN R 包列表中不可用?
我通过以下链接检查了 CRAN 包列表中的 sparkR 包。
https://cran.r-project.org/web/packages/available_packages_by_date.html
此列表不包括 sparkR,因此无法通过安装 sparkR install.packages("package_name")
。
为什么 sparkR 没有在包列表中列出?
r - 如何从 RStudio 初始化 YARN 上的新 Spark 上下文和执行程序编号
我正在与SparkR
.
我可以在 YARN 上设置 Spark Context,并使用所需的数量executors
和executor-cores
这样的命令:
现在我正在尝试初始化一个新的 Spark 上下文,但是来自 RStudio,它比常规命令行更易于使用。
我发现要做到这一点,我需要使用sparkR.init()
函数。master
我设置了一个选项,yarn-client
但如何指定num-executors
或executor-cores
?这是我堆叠的地方
r - 是否可以在未安装 R 解释器的情况下在 Spark 中运行 SparkR 程序?
我的问题是关于在没有 R 依赖的情况下在 spark 中运行 sparkR 程序的可行性。
换句话说,当机器中没有安装 R 解释器时,我可以在 spark 中运行以下程序吗?
r - 将 R 包运送到 SparkR 中的节点
嗨,我想知道是否有解决方案可以将 R 包与spark-submit
SparkR 中的计算节点一起发送并使用它们?
sparkr - unionAll 函数无法在 sparkR 中运行
在 SparkR 中,我有一个 DataFrame data
,它也包含在内id
。我也有一个liste= 2 9 12 102 154 ... 1451
where length(liste)=3001
。我想要data
id 等于 liste 的条目。在 sparkR 我这样做
这 10 次迭代需要很长时间,大约 5 分钟。当我想做所有迭代时,即 3001,sparkR 说“错误 returnstatus==0 不正确”。应该如何解决这个问题?