1

我正在尝试使用带箭头的 sparklyr来提高性能,例如此处所示,但是遇到了错误。

这是一个(希望)可重现的示例:

# Prepare session and data
library(sparklyr)
library(dplyr)
config <- sparklyr::spark_config()
sc <- sparklyr::spark_connect(master = "local", config = config)
mtcars_sp <- dplyr::copy_to(sc, datasets::mtcars, overwrite = TRUE)

使用不带箭头的 sparklyr 效果很好:

if ("arrow" %in% .packages()) detach("package:arrow")
mtcars_sp %>% sparklyr::spark_apply(function(df) df) %>% collect()

但是,将箭头添加到混合中并运行相同会产生错误:

library(arrow)
mtcars_sp %>% sparklyr::spark_apply(function(df) df) %>% collect()

错误消息似乎没有太大帮助,但查看工作日志我看到:

错误 sparklyr:RScript (6891) 意外终止:找不到对象“as_tibble”

相关会话信息:

  • R 版本 3.6.0,x86_64-redhat-linux-gnu(64 位)
  • 包:箭头_0.14.1、dplyr_0.8.3、sparklyr_1.0.1
  • 火花版本 2.4.3
4

1 回答 1

2

有一个更新的版本sparklyr可用,1.0.2。看起来该版本中有一些更改需要与arrow0.14.x配合使用。与最新版本sparklyr持续集成arrow正在传递。

于 2019-08-07T17:09:14.400 回答