问题标签 [sparklyr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

743 问题

0 投票

1 回答

3071 浏览

r - Spark DataFrame 中的最后一行（使用 sparklyr 和 dplyr）

想tail function使用 sparklyr 打印下面数据帧的最后 50 行，没有arrange或collect- 我的一些帧很大并且没有连续的列。

2016-12-12T19:06:53.957

0 投票

1 回答

642 浏览

r - Looking to sort a Spark Data Frame by Index using SparklyR

Anyone know how to use dplyr to sort by index with a Spark (sparklyr) DataFrame?

r apache-spark dplyr spark-dataframe sparklyr

2016-12-12T21:54:28.893

0 投票

1 回答

5258 浏览

r - 使用 sparklyr 将列数据类型更改为因子

我对 Spark 很陌生，目前正在通过 sparkly 包使用 R API 使用它。我从 hive 查询创建了一个 Spark 数据框。源表中未正确指定数据类型，我正在尝试通过利用dplyr包中的函数来重置数据类型。下面是我试过的代码：

如果 prod_dev 是 R 数据帧，该代码将起作用。但是在 Spark Data 框架上使用它似乎不会产生正确的结果：

有人可以建议如何对 Spark 数据框进行所需的更改吗？

r apache-spark dplyr apache-spark-sql sparklyr

2016-12-21T02:22:54.220

0 投票

1 回答

3554 浏览

r - sparklyr中的堆空间不足，但有足够的内存

即使是相当小的数据集，我也会遇到堆空间错误。我可以确定我没有用完系统内存。例如，考虑一个包含大约 20M 行和 9 列的数据集，它占用 1GB 磁盘空间。我在具有 30gb 内存的 Google Compute 节点上使用它。

假设我在一个名为df. 以下工作正常，虽然有点慢：

以下抛出java.lang.OutOfMemoryError: Java heap space.

我尝试了这个增加 Spark 堆空间的建议。问题仍然存在。观察机器的状态htop，我发现总内存使用量从未超过 10gb。

最后，根据 Sandeep 的评论，我尝试降低MaxHeapSize到4G. （是MaxHeapSize每个虚拟工作者还是整个 Spark 本地实例？）我仍然收到堆空间错误，而且我没有使用太多系统内存。

r apache-spark dplyr sparklyr

2016-12-29T17:18:43.120

0 投票

2 回答

1504 浏览

r - Sparklyr 中的缺失值

我正在尝试计算 Sparklyr 中 DataFrame 中特定库的缺失值，如下所示

但返回的结果是数据框中的总行数。我是不是错过了什么。请指出。

r apache-spark missing-data sparklyr

2016-12-30T08:07:14.627

0 投票

1 回答

1584 浏览

scala - 从文件中读取图形

希望使用 SparklyR 安装的 Hadoop/Spark 中的 Spark-Shell 在我的 Windows 机器上运行 GraphX 示例。我可以先从这里的安装目录启动 shell：

输出：

Cit-Hepth.txt然后使用保存在此数据中的SPARK IN ACTION 中的此文本示例C:\Users\eyeOfTheStorm，例如使用：

然后我简单地val graph = GraphLoader.edgeListFile(sc, "Cit-HepTh.txt")从 Scala shell 运行，并得到以下错误。请注意，HADOOP_HOME由 SparklyR 自动设置，并在C:\Users\eyeOfTheStorm\AppData\Local\rstudio\spark\Cache\spark-2.0.0-bin-hadoop2.7\tmp\hadoop. 是否有缺失的代码或路径可以消除下面的错误并运行代码？

scala apache-spark spark-graphx sparklyr

2017-01-02T20:55:54.393

0 投票

0 回答

57 浏览

r - dplyr 中的动态 mutate_each

我的数据框中有以下列：

c# 和 c#_sum 列是动态的。我正在尝试为所有 c# 做这样的事情：

最终结果将是：

我已经尝试过使用匹配项来处理我想要的列，但我不知道如何解析当前列名（c#_weight = (d * c#) / c#_sum）。

我不能使用tidyr，因为我正在使用sparklyr！有没有办法只使用 dplyr 来做到这一点？

r dplyr sparklyr

2017-01-04T19:33:10.887

0 投票

0 回答

493 浏览

java - sparklyr - 没有用于方案的文件系统

我正在尝试在 Windows 上本地使用 sparklyr API for Apache Spark，但我遇到了这个错误。

我有 2 个磁盘（C: 和 F:)。请帮我。

火花错误：`java.io.IOException: No FileSystem for scheme: F`

输出

java r apache-spark sparklyr

2017-01-05T16:05:51.383

0 投票

2 回答

560 浏览

r - 在 sparklyr 中禁用 hive 支持

有什么方法可以禁用 sparklyr 中的配置单元支持？

就像在 SparkR 中一样：

r sparklyr

2017-01-09T16:44:30.097

0 投票

1 回答

927 浏览

r - 与 SparklyR 连接时出错

我正在尝试遵循SparklyR上的简单指南，但它一开始就给我带来了错误。我按照指南中的说明安装了 SparklyR 和本地版本的 Spark：

然后我打开一个连接，这是发生错误的地方：

我收到“R 代码执行错误”和以下内容：

这是我的会话信息：

我错过了什么吗？在遵循指南之前我需要做些什么吗？

r apache-spark rstudio sparklyr

2017-01-11T09:52:50.623

1 2 3 4 5 6 7 8 9 10

问题标签 [sparklyr]

火花错误：java.io.IOException: No FileSystem for scheme: F

Reference

火花错误：`java.io.IOException: No FileSystem for scheme: F`