问题标签 [sparklyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
904 浏览

r - sparklyr - rsparkling as_h2o_frame() 错误 java.lang.IllegalArgumentException:不支持的参数:(spark.dynamicAllocation.enabled,true)

我正在尝试在会话rsparkling期间通过 H2o (使用 library )使用一些机器学习功能。sparklyr我正在运行 hadoop 集群。

考虑以下示例:

我收到以下错误:

有什么想法吗?

0 投票
0 回答
396 浏览

r - Spark + R的加权线性回归

我正在使用来自 R 的 Spark,通过sparklyr包在一个巨大的数据集(>500mill obs)上运行回归。但我想要一个加权回归,我似乎找不到正确的语法/函数来做到这一点。

目前我正在做

使用基本 RI 就可以了。

但当然,base R 无法处理我看似庞大的数据。

如何使用 R 中的 spark 执行相同的操作,使用sparklyr包与 Spark 交互?

(我试图通过SparkR与 Spark 捆绑来完成所有这些操作;SparkR::spark.glm()这正是我需要的weightCol参数,但我无法使用此包使 Spark 工作,因为我无法将数据复制到 Spark;总是点击“错误:内存耗尽(达到限制?)”,即使我调整了 sparkConfig 参数)

0 投票
0 回答
418 浏览

r - Sparklyr:如何通过调用方法附加组?

我有这个 Spark 表:

xy_df以及一个连接到该表的名为的句柄。

我想要计算invokeselectExpr函数mean,例如:

这也适用于所有其他列。

但是当我运行它时,它给出了这个错误:

我知道会发生这种情况,因为在常见的 SQL 规则中,我没有为聚合函数 ( )GROUP BY中包含的列添加子句。mean如何GROUP BYinvoke方法放入?

以前,我设法使用另一种方式完成目的,即:

  1. 计算mean每列的summarize_all
  2. 收集mean内部R
  3. 应用这意味着使用invokeselectExpr

正如这个答案中所解释的那样,但现在我试图通过将所有操作放在 Spark 本身中来稍微加快执行时间,而不向 R 检索任何内容。

我的 Spark 版本是 1.6.0

0 投票
2 回答
222 浏览

r - 我正在尝试更改类为 tbl_spark 的数据的所有列名

这是代码:

错误:

colnames <- (tmp, value = c("a", "b", "c", "d", "e")) 中的错误:'dimnames' 应用于非数组

0 投票
0 回答
107 浏览

sql-server - 有没有办法激活直接查询数据库的本地火花集群?

我正在尝试使用该sparklyr程序包连接到现有的 MS SQL 数据库,以比使用该RODBC程序包更快地查询数据。目前,我能够使用RODBC::odbcConnect()and成功查询数据库RODBC::sqlQuery()。对于大多数用途来说,这很好用,但是,我正在查询的数据库之一存储了大量的数据,当我的查询接近一百万行时,它可能需要很长时间。

例如,当我使用我编写的包装函数查询 40 个可能的站点之一时read_sql,从今年年初 ( 2017-01-01) 到今天 ( 2017-05-01),结果数据框中大约有 800,000 行和 7 列。该函数运行大约需要 30 秒。

如果我添加第二个站点,则几乎需要两倍的时间,因为行数也翻了一番,达到大约 160 万:

read_sql()函数本质上只是将输入转换为适当的字符串,以使用RODBC::sqlQuery().

我知道有一种方法可以在 spark 中使用 SQL 查询以获得所需的 spark 表输出。我的问题是是否有一种方法可以激活可以直接查询数据库的本地 spark 集群,并有望加快更大查询的等待时间。

0 投票
1 回答
165 浏览

apache-spark - 在火花数据帧上使用 dplyr 过滤函数的类型不匹配错误

我目前正在通过 rhel 集群开发 Rstudio。我在纱线客户端上使用 spark 2.0.2 并安装了以下版本的 sparklyr 和 dplyr

sparklyr_0.5.4 ; dplyr_0.5.0

对以下几行的简单测试会导致错误

我检查了阅读,一切看起来都很好

这是一个已知的错误吗?是否有已知的修复方法?

0 投票
1 回答
885 浏览

sql - 将 SQL 表读入 SparklyR

如何使用 SparklyR 将 SQL 表连接到 R?备忘单显示可以使用DBI::dbWriteTable,但没有提及DBI::dbReadTable。假设我的桌子在这里:

带有示例代码的响应是首选。谢谢!!

0 投票
3 回答
1197 浏览

r - 访问来自 sparklyr 的默认方案(数据库)以外的表

sparklyr在我使用with方法管理它连接到我们的(新)集群之后yarn-client,现在我可以只显示默认方案中的表。我怎样才能连接到scheme.table?使用DBI它可以使用以下行: dbGetQuery(sc, "SELECT * FROM scheme.table LIMIT 10") 在 HUE 中,我可以显示来自所有方案的所有表格。

〜g

0 投票
4 回答
9990 浏览

r - 是否可以在 dplyr 中进行完全连接并保留连接中使用的所有列?

我有两个表,我想使用 dplyr 进行完全连接,但我不希望它删除任何列。根据文档和我自己的经验,它只保留左侧的连接列。当您在右侧有一行记录时,这是一个问题,因为连接值已经消失。

例如,假设我有两个表 a 和 b,

做类似full_join(a, b, by="customerId")会产生的事情

所以没有办法知道第三排来自哪个客户。理想的输出是

请注意,这只是一个玩具示例。我实际上正在使用 sparklyr,所以这一切都在 Spark 中运行。因此,合并对我来说在这里不起作用。有没有办法做我在 dplyr 中寻找的东西?

编辑:正如有人指出的那样,这实际上在 dplyr 本身在本地工作。但是,我确实使用 sparklyr(使用 dplyr)看到了这个问题。这是查看的代码:

0 投票
1 回答
741 浏览

r - tidyr 的收集和联合功能

我有一个数据框如下:

我正在尝试编写以下内容并让它在 sparklyr 中工作:

Unite:其中 newcol 是包含 col1 和 col2 的联合值的新列名。

Gather:其中 A:Z 是要放置在新 col4 中的键。col5 是将包含当前列 A:Z 中的变量的新列

有没有人有一个包装器的用户定义函数,它可能使用 SQL 在 spraklyr 包中执行收集和联合功能?