问题标签 [sparklyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3071 浏览

r - Spark DataFrame 中的最后一行(使用 sparklyr 和 dplyr)

tail function使用 sparklyr 打印下面数据帧的最后 50 行,没有arrangecollect- 我的一些帧很大并且没有连续的列。

0 投票
1 回答
642 浏览

r - Looking to sort a Spark Data Frame by Index using SparklyR

Anyone know how to use dplyr to sort by index with a Spark (sparklyr) DataFrame?

0 投票
1 回答
5258 浏览

r - 使用 sparklyr 将列数据类型更改为因子

我对 Spark 很陌生,目前正在通过 sparkly 包使用 R API 使用它。我从 hive 查询创建了一个 Spark 数据框。源表中未正确指定数据类型,我正在尝试通过利用dplyr包中的函数来重置数据类型。下面是我试过的代码:

如果 prod_dev 是 R 数据帧,该代码将起作用。但是在 Spark Data 框架上使用它似乎不会产生正确的结果:

有人可以建议如何对 Spark 数据框进行所需的更改吗?

0 投票
1 回答
3554 浏览

r - sparklyr中的堆空间不足,但有足够的内存

即使是相当小的数据集,我也会遇到堆空间错误。我可以确定我没有用完系统内存。例如,考虑一个包含大约 20M 行和 9 列的数据集,它占用 1GB 磁盘空间。我在具有 30gb 内存的 Google Compute 节点上使用它。

假设我在一个名为df. 以下工作正常,虽然有点慢:

以下抛出java.lang.OutOfMemoryError: Java heap space.

我尝试了这个增加 Spark 堆空间的建议。问题仍然存在。观察机器的状态htop,我发现总内存使用量从未超过 10gb。

最后,根据 Sandeep 的评论,我尝试降低MaxHeapSize4G. (是MaxHeapSize每个虚拟工作者还是整个 Spark 本地实例?)我仍然收到堆空间错误,而且我没有使用太多系统内存。

0 投票
2 回答
1504 浏览

r - Sparklyr 中的缺失值

我正在尝试计算 Sparklyr 中 DataFrame 中特定库的缺失值,如下所示

但返回的结果是数据框中的总行数。我是不是错过了什么。请指出。

0 投票
1 回答
1584 浏览

scala - 从文件中读取图形

希望使用 SparklyR 安装的 Hadoop/Spark 中的 Spark-Shell 在我的 Windows 机器上运行 GraphX 示例。我可以先从这里的安装目录启动 shell:

输出:

Cit-Hepth.txt然后使用保存在此数据中的SPARK IN ACTION 中的此文本示例C:\Users\eyeOfTheStorm,例如使用:

然后我简单地val graph = GraphLoader.edgeListFile(sc, "Cit-HepTh.txt")从 Scala shell 运行,并得到以下错误。请注意,HADOOP_HOME由 SparklyR 自动设置,并在C:\Users\eyeOfTheStorm\AppData\Local\rstudio\spark\Cache\spark-2.0.0-bin-hadoop2.7\tmp\hadoop. 是否有缺失的代码或路径可以消除下面的错误并运行代码?

0 投票
0 回答
57 浏览

r - dplyr 中的动态 mutate_each

我的数据框中有以下列:

c# 和 c#_sum 列是动态的。我正在尝试为所有 c# 做这样的事情:

最终结果将是:

我已经尝试过使用匹配项来处理我想要的列,但我不知道如何解析当前列名(c#_weight = (d * c#) / c#_sum)。

我不能使用tidyr,因为我正在使用sparklyr!有没有办法只使用 dplyr 来做到这一点?

0 投票
0 回答
493 浏览

java - sparklyr - 没有用于方案的文件系统

我正在尝试在 Windows 上本地使用 sparklyr API for Apache Spark,但我遇到了这个错误。

我有 2 个磁盘(C: 和 F:)。请帮我。

火花错误:java.io.IOException: No FileSystem for scheme: F

输出

0 投票
2 回答
560 浏览

r - 在 sparklyr 中禁用 hive 支持

有什么方法可以禁用 sparklyr 中的配置单元支持?

就像在 SparkR 中一样:

0 投票
1 回答
927 浏览

r - 与 SparklyR 连接时出错

我正在尝试遵循SparklyR上的简单指南,但它一开始就给我带来了错误。我按照指南中的说明安装了 SparklyR 和本地版本的 Spark:

然后我打开一个连接,这是发生错误的地方:

我收到“R 代码执行错误”和以下内容:

这是我的会话信息:

我错过了什么吗?在遵循指南之前我需要做些什么吗?