我设置为独立 aUbuntu server
并Spark 2.2.0
运行。我的目标是允许多个用户(clients
)连接到该服务器并在本地(从他们自己的计算机)进行开发,这要归功于RStudio
一些代码,这些代码必须在Spark
.
所以,我在我的服务器上安装了 Livy(它已启动并正在运行),它允许我从RStudio
config = livy_config(username = "me", password = "***")
sc <- spark_connect(master = "http://myserver:8998", method = "livy", config = config)
RStudio
给我发回一条消息,告诉我我已连接。
由此,我有几个问题:
我可以在本地的 RStudio 上开发并将所有处理发送到 Spark(例如:管理数据框 + 执行一些机器学习)吗?如果是,如何?我必须直接使用 SparklyR 的函数吗?在将代码发送到远程服务器上的 Spark 集群之前,我是否必须安装本地运行的 Spark 实例才能测试我的代码?
当我使用带有 Iris 数据框的 copy_to 函数时,大约需要一分钟。我是否可以得出结论认为我的连接速度太慢而无法考虑在本地开发并将所有进程发送到我的服务器?
不能直接在我的服务器内部使用 RStudio(因为我们只是通过命令行访问它),我们将是几个人同时开发。什么是轻松开发的最佳解决方案?
最后,我面临一个简单的问题:如果最好的解决方案是在本地开发我们的应用程序,然后通过 ssh 将它们发送到我的服务器,并直接在我的服务器上执行它们,我该如何运行它们?我已经尝试归档一个简单R script
的.JAR
文件并运行spark_submit
,但我得到一个类未找到错误(未找到主程序)。我能怎么做 ?