问题标签 [sparklyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
526 浏览

r - Spark DataFrame (RDD) 的元数据

我正在通过“sparklyr”和“SparkR”对 R 中的火花进行基准测试。我在不同的 Testdata 上测试不同的功能。在两种特殊情况下,我计算一列中零的数量和一列中 NA 的数量,我意识到无论数据有多大,结果都会在不到一秒的时间内出现。所有其他计算都随着数据的大小而变化。所以我不认为 Spark 在那里计算任何东西,但这些案例存储在元数据的某个地方,并且它在加载数据时计算了这些结果。我测试了我的功能,它们总是给我正确的结果。

任何人都可以确认列中零的数量和空值的数量是否存储在数据帧的元数据中,如果没有,为什么它会这么快返回正确的值?

0 投票
2 回答
2544 浏览

r - 在 Sparklyr (spark_read_csv) 中指定 col 类型

我正在使用 SpraklyR 将 csv 读入 spark

但是得到:

如何使用 spark_read_csv 指定列类型?

提前致谢。

0 投票
2 回答
2014 浏览

r - Sparklyr 中的日期对象

我有一个字符串,yyyymmdd并且想在使用中将其转换为日期对象,sparklyr以便我可以从另一个日期中减去一个日期。

此代码适用于yyyy-mm-dd hr:min:sec

yyyy-mm-dd hr:min:sec如果它是 just 的字符串,而不是字符串,我会使用什么 cide yyyymmdd

我尝试过这样的事情但不起作用。

0 投票
1 回答
130 浏览

r - 子集数据后的 Sparklyr“NoSuchTableException”错误

我是新手sparklyr,也没有接受过任何正式的培训——这在这个问题之后会变得很明显。我也更多地站在统计学家的一边,这没有帮助。子设置 Spark 后出现错误DataFrame

考虑以下示例:

我得到的错误是:

还有其他几行错误。

我不明白为什么我会收到这个错误。"subdf" 是一个 Spark DataFrame

0 投票
2 回答
1818 浏览

r - sparklyr 中是否有等效的 cbind() 或 bind_cols() ?

我正在尝试在 sparklyR 中绑定两个不同的数据帧(具有相同的行数 - 并且行匹配)的简单操作。

例如:

我收到的错误消息:

我试过combine(), cbind_all,cbind()c(). 没有人在工作。

0 投票
1 回答
167 浏览

r - 分裂Sparklyr 作为火花对象的结果

我在拆分 Sparklyr 生成的随机森林的结果时遇到问题。

我正在使用以下代码生成一个模型,该模型预测 {0 | 1} 值并预测指定验证集的结果。

此生成的预测对象如下所示:

如何在 Spark 中拆分列表,以仅获取列表的第一个数字。像这样的东西...

希望有人可以帮助解决这个问题。

问候, 吉茨克

0 投票
2 回答
3161 浏览

r - 使用 sparklyr 包时,R 未检测到安装的最新 Java 版本(1.8)

R 未检测到为使用 sparklyr 包而安装的最新 Java 版本 (1.8)。

我更新了 Java 版本并在 Mac 终端中确认。然后我重新启动了 Rsession:

但我仍然收到同样的错误过时的 Java 版本:

知道如何解决这个问题吗?

0 投票
1 回答
1311 浏览

apache-spark - Spark 和 SparklyR 错误“超过 64 KB”

使用 SparklyR 和 Spark 2.0.2 调用逻辑回归后,我在 Spark 上收到以下错误。

我读入 Spark 的数据集比较大(2.2GB)。这是错误消息:

其他人也有类似的问题:https ://github.com/rstudio/sparklyr/issues/298但我找不到解决方案。有任何想法吗?

0 投票
2 回答
906 浏览

r - 读取 csv 函数 sparklyr 错误

我正在尝试使用谷歌计算集群中的 sparklyr 包将 csv 文件读入 strudio。这是配置:

测试 Spark 框架

粘贴我将用于 spark_read_csv 函数的路径字符串后,出现指示“无效参数”的错误。即使我不点击保存按钮,它也会不断弹出。

知道为什么我会收到此错误吗?有趣的是,我刚刚在亚马逊 EMR 中尝试了相同的安装配置并遇到了同样的问题。

阿尔比特在此处输入图像描述

0 投票
3 回答
3389 浏览

r - 使用 sparklyr 包访问 hive?

我已经hdfs使用 sparklyr 成功访问了。但是如何访问配置单元表/命令,sparklyr因为我需要将它存储df到配置单元中。