7

我想通过 sparklyr 将我的本地桌面 RStudio 会话连接到远程 spark 会话。当您在 RStudio 的 sparklyr ui 选项卡中添加新连接并选择集群时,表示您必须在集群上运行,或者与集群有高带宽连接。

谁能阐明如何建立这种联系?我不确定如何创建可重现的示例,但总的来说我想做的是:

library(sparklyr)
sc <- spark_connect(master = "spark://ip-[MY_PRIVATE_IP]:7077", spark_home = "/home/ubuntu/spark-2.0.0", version="2.0.0")

从远程服务器。我知道会有延迟,尤其是在尝试在遥控器之间传递数据时。我也明白,将 rstudio-server 放在实际的集群上会更好——但这并不总是可能的,我正在寻找一个 sparklyr 选项来在我的服务器和我的桌面 RStudio 会话之间进行交互。谢谢。

4

3 回答 3

8

sparklyr版本0.4开始,不支持从 RStudio 桌面连接到远程 Spark 集群。相反,正如您所提到的,推荐的方法是在 Spark 集群中安装 RStudio Server。

也就是说,sparklyr 中的livy 分支正在探索与 Livy 的集成,这将使 RStudio 桌面能够通过 Livy 连接到远程 Spark 集群。

于 2016-11-01T17:38:36.523 回答
7

使用更新版本的 sparklyr(0.9.2例如版本)可以连接到远程 Spark 集群。

这是连接到 Spark独立集群版本的示例2.3.1。有关其他主 URL 方案,请参阅主URL。

#install.packages("sparklyr")
library(sparklyr)

# You have to install locally (on the driver where RStudio is running) the same Spark version
spark_v <- "2.3.1"
cat("Installing Spark in the directory:", spark_install_dir())
spark_install(version = spark_v)

sc <- spark_connect(spark_home = spark_install_find(version=spark_v)$sparkVersionDir, 
                    master = "spark://ip-[MY_PRIVATE_IP]:7077")

sc$master
# "spark://ip-[MY_PRIVATE_IP]:7077"

我写了一篇关于这个主题的文章。

于 2018-11-27T15:49:01.923 回答
1

我终于设法使用Livy将我的本地 R 连接到 Spark 集群的云实例(在我的例子中是 HD 洞察)

在 sparklyr 的 spark_connect 中有一个连接到 livy 的选项。(方法=“活泼”)

sc <- spark_connect(master = "https://<clustername>.azurehdinsight.net/livy/",
                     method = "livy", config = livy_config(
                       username = "<admin>",
                       password = rstudioapi::askForPassword("Livy password:")))
于 2019-01-24T05:14:47.377 回答