问题标签 [sparklyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Spark DataFrame 中的最后一行(使用 sparklyr 和 dplyr)
想tail function
使用 sparklyr 打印下面数据帧的最后 50 行,没有arrange
或collect
- 我的一些帧很大并且没有连续的列。
r - Looking to sort a Spark Data Frame by Index using SparklyR
Anyone know how to use dplyr to sort by index with a Spark (sparklyr) DataFrame?
r - 使用 sparklyr 将列数据类型更改为因子
我对 Spark 很陌生,目前正在通过 sparkly 包使用 R API 使用它。我从 hive 查询创建了一个 Spark 数据框。源表中未正确指定数据类型,我正在尝试通过利用dplyr
包中的函数来重置数据类型。下面是我试过的代码:
如果 prod_dev 是 R 数据帧,该代码将起作用。但是在 Spark Data 框架上使用它似乎不会产生正确的结果:
有人可以建议如何对 Spark 数据框进行所需的更改吗?
r - sparklyr中的堆空间不足,但有足够的内存
即使是相当小的数据集,我也会遇到堆空间错误。我可以确定我没有用完系统内存。例如,考虑一个包含大约 20M 行和 9 列的数据集,它占用 1GB 磁盘空间。我在具有 30gb 内存的 Google Compute 节点上使用它。
假设我在一个名为df
. 以下工作正常,虽然有点慢:
以下抛出java.lang.OutOfMemoryError: Java heap space
.
我尝试了这个增加 Spark 堆空间的建议。问题仍然存在。观察机器的状态htop
,我发现总内存使用量从未超过 10gb。
最后,根据 Sandeep 的评论,我尝试降低MaxHeapSize
到4G
. (是MaxHeapSize
每个虚拟工作者还是整个 Spark 本地实例?)我仍然收到堆空间错误,而且我没有使用太多系统内存。
r - Sparklyr 中的缺失值
我正在尝试计算 Sparklyr 中 DataFrame 中特定库的缺失值,如下所示
但返回的结果是数据框中的总行数。我是不是错过了什么。请指出。
scala - 从文件中读取图形
希望使用 SparklyR 安装的 Hadoop/Spark 中的 Spark-Shell 在我的 Windows 机器上运行 GraphX 示例。我可以先从这里的安装目录启动 shell:
输出:
Cit-Hepth.txt
然后使用保存在此数据中的SPARK IN ACTION 中的此文本示例C:\Users\eyeOfTheStorm
,例如使用:
然后我简单地val graph = GraphLoader.edgeListFile(sc, "Cit-HepTh.txt")
从 Scala shell 运行,并得到以下错误。请注意,HADOOP_HOME
由 SparklyR 自动设置,并在C:\Users\eyeOfTheStorm\AppData\Local\rstudio\spark\Cache\spark-2.0.0-bin-hadoop2.7\tmp\hadoop
. 是否有缺失的代码或路径可以消除下面的错误并运行代码?
r - dplyr 中的动态 mutate_each
我的数据框中有以下列:
c# 和 c#_sum 列是动态的。我正在尝试为所有 c# 做这样的事情:
最终结果将是:
我已经尝试过使用匹配项来处理我想要的列,但我不知道如何解析当前列名(c#_weight = (d * c#) / c#_sum)。
我不能使用tidyr,因为我正在使用sparklyr!有没有办法只使用 dplyr 来做到这一点?
java - sparklyr - 没有用于方案的文件系统
我正在尝试在 Windows 上本地使用 sparklyr API for Apache Spark,但我遇到了这个错误。
我有 2 个磁盘(C: 和 F:)。请帮我。
火花错误:java.io.IOException: No FileSystem for scheme: F
输出
r - 在 sparklyr 中禁用 hive 支持
有什么方法可以禁用 sparklyr 中的配置单元支持?
就像在 SparkR 中一样:
r - 与 SparklyR 连接时出错
我正在尝试遵循SparklyR上的简单指南,但它一开始就给我带来了错误。我按照指南中的说明安装了 SparklyR 和本地版本的 Spark:
然后我打开一个连接,这是发生错误的地方:
我收到“R 代码执行错误”和以下内容:
这是我的会话信息:
我错过了什么吗?在遵循指南之前我需要做些什么吗?