问题标签 [sparklyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - sparklyr - rsparkling as_h2o_frame() 错误 java.lang.IllegalArgumentException:不支持的参数:(spark.dynamicAllocation.enabled,true)
我正在尝试在会话rsparkling
期间通过 H2o (使用 library )使用一些机器学习功能。sparklyr
我正在运行 hadoop 集群。
考虑以下示例:
我收到以下错误:
有什么想法吗?
r - Spark + R的加权线性回归
我正在使用来自 R 的 Spark,通过sparklyr
包在一个巨大的数据集(>500mill obs)上运行回归。但我想要一个加权回归,我似乎找不到正确的语法/函数来做到这一点。
目前我正在做
使用基本 RI 就可以了。
但当然,base R 无法处理我看似庞大的数据。
如何使用 R 中的 spark 执行相同的操作,使用sparklyr
包与 Spark 交互?
(我试图通过SparkR
与 Spark 捆绑来完成所有这些操作;SparkR::spark.glm()
这正是我需要的weightCol
参数,但我无法使用此包使 Spark 工作,因为我无法将数据复制到 Spark;总是点击“错误:内存耗尽(达到限制?)”,即使我调整了 sparkConfig 参数)
r - Sparklyr:如何通过调用方法附加组?
我有这个 Spark 表:
xy_df
以及一个连接到该表的名为的句柄。
我想要计算invoke
的selectExpr
函数mean
,例如:
这也适用于所有其他列。
但是当我运行它时,它给出了这个错误:
我知道会发生这种情况,因为在常见的 SQL 规则中,我没有为聚合函数 ( )GROUP BY
中包含的列添加子句。mean
如何GROUP BY
将invoke
方法放入?
以前,我设法使用另一种方式完成目的,即:
- 计算
mean
每列的summarize_all
- 收集
mean
内部R - 应用这意味着使用
invoke
和selectExpr
正如这个答案中所解释的那样,但现在我试图通过将所有操作放在 Spark 本身中来稍微加快执行时间,而不向 R 检索任何内容。
我的 Spark 版本是 1.6.0
r - 我正在尝试更改类为 tbl_spark 的数据的所有列名
这是代码:
错误:
colnames <- (tmp, value = c("a", "b", "c", "d", "e")) 中的错误:'dimnames' 应用于非数组
sql-server - 有没有办法激活直接查询数据库的本地火花集群?
我正在尝试使用该sparklyr
程序包连接到现有的 MS SQL 数据库,以比使用该RODBC
程序包更快地查询数据。目前,我能够使用RODBC::odbcConnect()
and成功查询数据库RODBC::sqlQuery()
。对于大多数用途来说,这很好用,但是,我正在查询的数据库之一存储了大量的数据,当我的查询接近一百万行时,它可能需要很长时间。
例如,当我使用我编写的包装函数查询 40 个可能的站点之一时read_sql
,从今年年初 ( 2017-01-01
) 到今天 ( 2017-05-01
),结果数据框中大约有 800,000 行和 7 列。该函数运行大约需要 30 秒。
如果我添加第二个站点,则几乎需要两倍的时间,因为行数也翻了一番,达到大约 160 万:
该read_sql()
函数本质上只是将输入转换为适当的字符串,以使用RODBC::sqlQuery()
.
我知道有一种方法可以在 spark 中使用 SQL 查询以获得所需的 spark 表输出。我的问题是是否有一种方法可以激活可以直接查询数据库的本地 spark 集群,并有望加快更大查询的等待时间。
apache-spark - 在火花数据帧上使用 dplyr 过滤函数的类型不匹配错误
我目前正在通过 rhel 集群开发 Rstudio。我在纱线客户端上使用 spark 2.0.2 并安装了以下版本的 sparklyr 和 dplyr
sparklyr_0.5.4 ; dplyr_0.5.0
对以下几行的简单测试会导致错误
我检查了阅读,一切看起来都很好
这是一个已知的错误吗?是否有已知的修复方法?
sql - 将 SQL 表读入 SparklyR
如何使用 SparklyR 将 SQL 表连接到 R?备忘单显示可以使用DBI::dbWriteTable
,但没有提及DBI::dbReadTable
。假设我的桌子在这里:
带有示例代码的响应是首选。谢谢!!
r - 访问来自 sparklyr 的默认方案(数据库)以外的表
sparklyr
在我使用with方法管理它连接到我们的(新)集群之后yarn-client
,现在我可以只显示默认方案中的表。我怎样才能连接到scheme.table
?使用DBI
它可以使用以下行:
dbGetQuery(sc, "SELECT * FROM scheme.table LIMIT 10")
在 HUE 中,我可以显示来自所有方案的所有表格。
〜g
r - 是否可以在 dplyr 中进行完全连接并保留连接中使用的所有列?
我有两个表,我想使用 dplyr 进行完全连接,但我不希望它删除任何列。根据文档和我自己的经验,它只保留左侧的连接列。当您在右侧有一行记录时,这是一个问题,因为连接值已经消失。
例如,假设我有两个表 a 和 b,
做类似full_join(a, b, by="customerId")
会产生的事情
所以没有办法知道第三排来自哪个客户。理想的输出是
请注意,这只是一个玩具示例。我实际上正在使用 sparklyr,所以这一切都在 Spark 中运行。因此,合并对我来说在这里不起作用。有没有办法做我在 dplyr 中寻找的东西?
编辑:正如有人指出的那样,这实际上在 dplyr 本身在本地工作。但是,我确实使用 sparklyr(使用 dplyr)看到了这个问题。这是查看的代码:
r - tidyr 的收集和联合功能
我有一个数据框如下:
我正在尝试编写以下内容并让它在 sparklyr 中工作:
Unite:其中 newcol 是包含 col1 和 col2 的联合值的新列名。
Gather:其中 A:Z 是要放置在新 col4 中的键。col5 是将包含当前列 A:Z 中的变量的新列
有没有人有一个包装器的用户定义函数,它可能使用 SQL 在 spraklyr 包中执行收集和联合功能?