0

我们计划在现有 HDP 2.6 集群之外设置 Apache Spark 3.0,并在该集群中使用 yarn(v2.7) 提交作业,无需升级或修改。目前用户正在使用 HDP 堆栈中包含的 Spark 2.3。目标是在 HDP 集群之外启用 Apache Spark 3.0,而不会中断当前作业。

什么是最好的方法?在 HDP 集群之外设置 apache 3.0 客户端节点并从新客户端节点提交?

对此有什么建议吗?避免与当前 HDP 堆栈及其组件发生冲突的事情?

4

1 回答 1

0

从带有特定(HDP 2.6)Hadoop,Hive 版本的 spark 源代码3.0.1构建 spark 3.0.1。然后仅将其部署在 HDP 客户端节点中。Spark 3.0.1 预构建的二进制文件与 Hive 1.2.1 存在兼容性问题,因为它是使用最新的 hive 构建的。

构建选项:

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive-1.2 -Phive-thriftserver -DskipTests -Dmaven.test.skip=true clean package
于 2020-11-13T01:11:06.873 回答