apache-spark - 为什么 start-slave.sh 需要主 URL？

Question

我想知道为什么客户端apache-spark/sbin/start-slave.sh <master's URL>必须指出这一点master's URL，因为主人已经在 : 中指出了这一点apache-spark/sbin/start-master.sh --master spark://my-master:7077e.g.？

是不是因为客户端必须等待master收到mastersubmit发送的？如果是：那为什么主人必须--master spark://....在其中指定submit？

score 0 · Accepted Answer

start-slave.sh <master's URL>启动一个独立的 Worker（以前是一个从属），独立的 Master 可<master's URL>用于向 Spark 应用程序提供资源。

Standalone Master 管理工人，工人向 master 注册自己并提供 CPU 和内存以提供资源。

从手动启动集群：

您可以通过执行以下命令来启动独立的主服务器：

./sbin/start-master.sh

一旦启动，master 将为自己打印一个 spark://HOST:PORT URL，您可以使用它来连接 worker 到它，或者作为“master”参数传递给 SparkContext。您还可以在 master 的 Web UI 上找到此 URL，默认为http://localhost:8080。

类似地，你可以启动一个或多个worker，并通过以下方式将它们连接到master：

./sbin/start-slave.sh <master-spark-URL>

因为主人已经在：apache-spark/sbin/start-master.sh --master spark://my-master:7077

您可以指定默认为的独立 Master 的 URL spark://my-master:7077，但这不会在网络上公布，因此任何人都可以知道该 URL（除非在命令行中指定）。

为什么主人必须在其提交中指定--master spark://....

它不是。Standalone Master 和 submit 是不同的“工具”，即前者是 Spark 应用程序的集群管理器，而后者是将 Spark 应用程序提交到集群管理器以执行（可以在三个受支持的集群管理器中的任何一个上：Spark Standalone， Apache Mesos 和 Hadoop YARN）。

请参阅提交申请。

apache-spark - 为什么 start-slave.sh 需要主 URL？

1 回答 1

Related

Reference