apache-spark - 如何连接到 spark（远程 CDH-5.8 docker vms）？我需要在容器上映射端口 7077 吗？

问问题 2017-09-10T22:18:13.243

132 次

目前，我可以从我的应用程序内部访问 HDFS，但我也想使用 Cloudera 的 spark，而不是运行我的本地 spark，因为它在 Cloudera Manager 中启用。

现在我在 core-site.xml 中定义了 HDFS，并且我将我的应用程序作为 (--master) YARN 运行。因此我不需要将机器地址设置为我的 HDFS 文件。这样，我的 SPARK 作业在本地而不是在“集群”中运行。我暂时不想要那个。当我尝试将 --master 设置为 [namenode]:[port] 时，它没有连接。我想知道我是否指向正确的端口，或者我是否必须在 docker 容器上映射该端口。或者，如果我缺少有关 Yarn 设置的信息。

此外，我一直在将 SnappyData (Inc) 解决方案作为 Spark SQL 内存数据库进行测试。所以我的目标是在本地运行 snappy JVM，但将 spark 作业重定向到 VM 集群。这里的整个想法是针对一些 Hadoop 实现测试一些性能。这个解决方案不是最终产品（如果 snappy 是本地的，并且 spark 是“真正的”远程的，我相信它不会高效 - 但在这种情况下，我会将 snappy JVM 带到同一个集群中......）

提前致谢！

apache-spark - 如何连接到 spark（远程 CDH-5.8 docker vms）？我需要在容器上映射端口 7077 吗？

0 回答 0

Related

Reference