“sparklyr”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

904 浏览

r - sparklyr - rsparkling as_h2o_frame() 错误 java.lang.IllegalArgumentException：不支持的参数：（spark.dynamicAllocation.enabled，true）

我正在尝试在会话rsparkling期间通过 H2o （使用 library ）使用一些机器学习功能。sparklyr我正在运行 hadoop 集群。

考虑以下示例：

我收到以下错误：

有什么想法吗？

r hadoop h2o sparklyr

2017-04-27T15:46:08.383

0 投票

0 回答

396 浏览

r - Spark + R的加权线性回归

我正在使用来自 R 的 Spark，通过sparklyr包在一个巨大的数据集（>500mill obs）上运行回归。但我想要一个加权回归，我似乎找不到正确的语法/函数来做到这一点。

目前我正在做

使用基本 RI 就可以了。

但当然，base R 无法处理我看似庞大的数据。

如何使用 R 中的 spark 执行相同的操作，使用sparklyr包与 Spark 交互？

（我试图通过SparkR与 Spark 捆绑来完成所有这些操作；SparkR::spark.glm()这正是我需要的weightCol参数，但我无法使用此包使 Spark 工作，因为我无法将数据复制到 Spark；总是点击“错误：内存耗尽（达到限制？）”，即使我调整了 sparkConfig 参数）

r apache-spark apache-spark-mllib sparkr sparklyr

2017-04-27T23:47:27.397

0 投票

0 回答

418 浏览

r - Sparklyr：如何通过调用方法附加组？

我有这个 Spark 表：

xy_df以及一个连接到该表的名为的句柄。

我想要计算invoke的selectExpr函数mean，例如：

这也适用于所有其他列。

但是当我运行它时，它给出了这个错误：

我知道会发生这种情况，因为在常见的 SQL 规则中，我没有为聚合函数 ( )GROUP BY中包含的列添加子句。mean如何GROUP BY将invoke方法放入？

以前，我设法使用另一种方式完成目的，即：

计算mean每列的summarize_all
收集mean内部R
应用这意味着使用invoke和selectExpr

正如这个答案中所解释的那样，但现在我试图通过将所有操作放在 Spark 本身中来稍微加快执行时间，而不向 R 检索任何内容。

我的 Spark 版本是 1.6.0

r apache-spark dplyr sparkr sparklyr

2017-04-28T04:39:55.970

0 投票

2 回答

222 浏览

r - 我正在尝试更改类为 tbl_spark 的数据的所有列名

这是代码：

错误：

colnames <- (tmp, value = c("a", "b", "c", "d", "e")) 中的错误：'dimnames' 应用于非数组

r sparklyr

2017-05-01T10:53:31.963

0 投票

0 回答

107 浏览

sql-server - 有没有办法激活直接查询数据库的本地火花集群？

我正在尝试使用该sparklyr程序包连接到现有的 MS SQL 数据库，以比使用该RODBC程序包更快地查询数据。目前，我能够使用RODBC::odbcConnect()and成功查询数据库RODBC::sqlQuery()。对于大多数用途来说，这很好用，但是，我正在查询的数据库之一存储了大量的数据，当我的查询接近一百万行时，它可能需要很长时间。

例如，当我使用我编写的包装函数查询 40 个可能的站点之一时read_sql，从今年年初 ( 2017-01-01) 到今天 ( 2017-05-01)，结果数据框中大约有 800,000 行和 7 列。该函数运行大约需要 30 秒。

如果我添加第二个站点，则几乎需要两倍的时间，因为行数也翻了一番，达到大约 160 万：

该read_sql()函数本质上只是将输入转换为适当的字符串，以使用RODBC::sqlQuery().

我知道有一种方法可以在 spark 中使用 SQL 查询以获得所需的 spark 表输出。我的问题是是否有一种方法可以激活可以直接查询数据库的本地 spark 集群，并有望加快更大查询的等待时间。

sql-server r apache-spark apache-spark-sql sparklyr

2017-05-01T15:31:58.157

0 投票

1 回答

165 浏览

apache-spark - 在火花数据帧上使用 dplyr 过滤函数的类型不匹配错误

我目前正在通过 rhel 集群开发 Rstudio。我在纱线客户端上使用 spark 2.0.2 并安装了以下版本的 sparklyr 和 dplyr

sparklyr_0.5.4 ; dplyr_0.5.0

对以下几行的简单测试会导致错误

我检查了阅读，一切看起来都很好

这是一个已知的错误吗？是否有已知的修复方法？

apache-spark dplyr sparklyr

2017-05-02T13:32:13.300

0 投票

1 回答

885 浏览

sql - 将 SQL 表读入 SparklyR

如何使用 SparklyR 将 SQL 表连接到 R？备忘单显示可以使用DBI::dbWriteTable，但没有提及DBI::dbReadTable。假设我的桌子在这里：

带有示例代码的响应是首选。谢谢！！

sql sql-server r sparklyr

2017-05-04T22:58:39.623

0 投票

3 回答

1197 浏览

r - 访问来自 sparklyr 的默认方案（数据库）以外的表

sparklyr在我使用with方法管理它连接到我们的（新）集群之后yarn-client，现在我可以只显示默认方案中的表。我怎样才能连接到scheme.table？使用DBI它可以使用以下行： dbGetQuery(sc, "SELECT * FROM scheme.table LIMIT 10") 在 HUE 中，我可以显示来自所有方案的所有表格。

〜g

r apache-spark dplyr sparklyr

2017-05-05T13:35:37.353

0 投票

4 回答

9990 浏览

r - 是否可以在 dplyr 中进行完全连接并保留连接中使用的所有列？

我有两个表，我想使用 dplyr 进行完全连接，但我不希望它删除任何列。根据文档和我自己的经验，它只保留左侧的连接列。当您在右侧有一行记录时，这是一个问题，因为连接值已经消失。

例如，假设我有两个表 a 和 b，

做类似full_join(a, b, by="customerId")会产生的事情

所以没有办法知道第三排来自哪个客户。理想的输出是

请注意，这只是一个玩具示例。我实际上正在使用 sparklyr，所以这一切都在 Spark 中运行。因此，合并对我来说在这里不起作用。有没有办法做我在 dplyr 中寻找的东西？

编辑：正如有人指出的那样，这实际上在 dplyr 本身在本地工作。但是，我确实使用 sparklyr（使用 dplyr）看到了这个问题。这是查看的代码：

r dplyr sparklyr

2017-05-05T15:52:35.617

0 投票

1 回答

741 浏览

r - tidyr 的收集和联合功能

我有一个数据框如下：

我正在尝试编写以下内容并让它在 sparklyr 中工作：

Unite：其中 newcol 是包含 col1 和 col2 的联合值的新列名。

Gather：其中 A:Z 是要放置在新 col4 中的键。col5 是将包含当前列 A:Z 中的变量的新列

有没有人有一个包装器的用户定义函数，它可能使用 SQL 在 spraklyr 包中执行收集和联合功能？

r apache-spark tidyr sparklyr

2017-05-05T20:24:10.577

问题标签 [sparklyr]

Reference