我sparklyr(0.8.4)
在 RStudio 中使用通过 livy 连接到我的远程 spark 环境,并注意到 sparklyr 建立会话大约需要 3~5 分钟。
sc <- sparklyr::spark_connect(master="https://myremotelivy", method="livy")
但是,当我通过(在 jupyter 笔记本中)通过同一个 livy 端点连接到同一个集群时,我看到返回会话上下文的sparkmagic
时间不到一分钟。sparkR
我知道这与它与远程系统的工作方式有sparklyr
很大不同sparkR
(即 sparklyr 利用 sparkQL),也许这不是一个公平的比较。
任何人都可以分享任何关于为什么通过 RStudio 建立此会话需要更多时间的见解吗?是否有配置参数(livy、spark 或 RStudio)可以帮助通过 sparklyr 进行交互以降低速度?即使执行一个简单的x <- tbl(sc, "mytable")
也需要大约 15 秒..
非常感谢。