目前,我可以从我的应用程序内部访问 HDFS,但我也想使用 Cloudera 的 spark,而不是运行我的本地 spark,因为它在 Cloudera Manager 中启用。
现在我在 core-site.xml 中定义了 HDFS,并且我将我的应用程序作为 (--master) YARN 运行。因此我不需要将机器地址设置为我的 HDFS 文件。这样,我的 SPARK 作业在本地而不是在“集群”中运行。我暂时不想要那个。当我尝试将 --master 设置为 [namenode]:[port] 时,它没有连接。我想知道我是否指向正确的端口,或者我是否必须在 docker 容器上映射该端口。或者,如果我缺少有关 Yarn 设置的信息。
此外,我一直在将 SnappyData (Inc) 解决方案作为 Spark SQL 内存数据库进行测试。所以我的目标是在本地运行 snappy JVM,但将 spark 作业重定向到 VM 集群。这里的整个想法是针对一些 Hadoop 实现测试一些性能。这个解决方案不是最终产品(如果 snappy 是本地的,并且 spark 是“真正的”远程的,我相信它不会高效 - 但在这种情况下,我会将 snappy JVM 带到同一个集群中......)
提前致谢!