我应该使用什么端口来访问 Google Dataproc 上的 Spark UI?
我尝试了端口 4040 和 7077 以及我发现使用的许多其他端口netstat -pln
防火墙配置正确。
我应该使用什么端口来访问 Google Dataproc 上的 Spark UI?
我尝试了端口 4040 和 7077 以及我发现使用的许多其他端口netstat -pln
防火墙配置正确。
Dataproc 在 YARN 之上运行 Spark,因此您不会找到典型的“Spark 独立”端口;相反,在运行 Spark 作业时,您可以访问8088
将显示 YARN ResourceManager 主页的端口。可以通过Application Master
该页面上的链接访问任何正在运行的 Spark 作业。Spark Application Master 的页面看起来与熟悉的 Spark 独立登录页面相同,您通常会在端口 8080 上找到默认 Spark 设置。
由于工作人员通过内部网络签入,YARN 的链接将使用集群内部主机名(主机名应包含您的 Dataproc 集群名称作为前缀),但这意味着如果您从外部网络访问,链接可能无法正常工作首先; 如果您使用基于防火墙的方法,则必须将主机名替换为外部 IP 地址。
更简单的体验是使用 SOCKS 代理方法,如下所述:https ://cloud.google.com/dataproc/cluster-web-interfaces
在这种情况下,只需使用gcloud compute ssh
运行轻量级本地 socks 代理,然后打开指向该代理的浏览器,您就可以正常单击所有 YARN 链接。
按照丹尼斯的回答中的说明,我发现我无法连接到 dataproc 映像 v1.0 的端口 8080 或 8088。
主节点上的开放端口建议使用 18080,我按照端口 18080的文档进行了操作,瞧:访问 webui。
由于我的 DataProc 集群中有公共地址,我在 Cloud Console 中创建了一条防火墙规则,从我的公司子网到 DataProc 实例端口8088(YARN RM)和8042(NM Webapp 地址)。