我正在尝试构建一个 Java/Scala 应用程序,它将火花代码提交到远程火花集群。我正在使用 Apache Toree 即 Spark Kernal 来实现这一点。我已成功连接并使用 YARN 上的 Spark 启动了 Apache Toree 服务。
我需要编写一个 Java/Scala 客户端来连接到这个正在运行的 Apache Toree 服务,以便交互式提交 Spark 代码。
要写一个客户端,我指的是项目中的以下示例
现在我的问题是 - 如果 Spark Kernel/Apache Toree 运行在 IP 地址为 10.22.34.10:8042 或http://example.com:8042的边缘节点之一上,我应该在客户端代码中指定这个地址吗?客户端代码与远程 Spark Kernel/Apache Toree 服务建立连接并将 Spark 代码提交给正在运行的 Spark Kernel 执行?
简而言之 - 我们如何在客户端和 Apache Toree 服务/Spark Kernel 之间建立连接,即我的意思是客户端如何知道在哪里提交 spark 代码?- 我无法在示例示例中找到配置(上面的链接)。
PS:在我的用例中,我没有在任何地方使用 Jupyter - 在 Spark-Yarn 上简单地运行 Toree 服务并用 Java/scala 编写客户端来提交/执行 Spark 代码。
如果我遗漏了一些重要的东西作为我的用例的配置,请告诉我。
一个链接/示例到一个工作 Java/Scala 示例代码以连接到可以提交和执行 spark 代码的正在运行的 Toree 服务将受到高度赞赏。谢谢!