2

我是 Sparklyr 的新手,对 R 来说也很新。我想知道我是否可以在本地 RStudio 上运行 sparkly 并连接到网络上的 apache spark 集群。所有博客示例都讨论了直接在 apache spark 集群上运行 RStudio Server。任何人都可以验证这是否可能?

4

2 回答 2

2

除非您的笔记本电脑在物理上非常靠近集群,否则您可能希望使用 Livy。请参阅https://github.com/rstudio/sparklyr#connecting-through-livy

于 2017-04-21T19:17:12.260 回答
1

是的,这应该是可能的。首先 - 确保您的集群可以从您的本地 PC 访问。如果是,请转到 Spark 集群的 Spark Master Web 控制台 (ip_address:8080) 以获取 Master 的 URL ("spark://...")。

library(sparklyr)
# Set your SPARK_HOME path
Sys.setenv(SPARK_HOME="path/to/spark_home")
config <- spark_config()
# Optionally you can modify config parameters here
sc <- spark_connect(master = "spark://paste_your_spark_master_url:7077", spark_home = Sys.getenv("SPARK_HOME"), config = config)

# Some test code, copying data to Spark cluster
iris_tbl <- copy_to(sc, iris)  
flights_tbl <- copy_to(sc, nycflights13::flights, "flights")
batting_tbl <- copy_to(sc, Lahman::Batting, "batting")
src_tbls(sc)

您可能还想尝试在本地运行 Spark。只需按照 sparklyr 网页上的说明进行操作:http: //spark.rstudio.com/。只是可能使用较新的 Spark 版本(例如 2.0.2)。

于 2017-04-21T14:07:33.557 回答