我们计划在现有 HDP 2.6 集群之外设置 Apache Spark 3.0,并在该集群中使用 yarn(v2.7) 提交作业,无需升级或修改。目前用户正在使用 HDP 堆栈中包含的 Spark 2.3。目标是在 HDP 集群之外启用 Apache Spark 3.0,而不会中断当前作业。
什么是最好的方法?在 HDP 集群之外设置 apache 3.0 客户端节点并从新客户端节点提交?
对此有什么建议吗?避免与当前 HDP 堆栈及其组件发生冲突的事情?
我们计划在现有 HDP 2.6 集群之外设置 Apache Spark 3.0,并在该集群中使用 yarn(v2.7) 提交作业,无需升级或修改。目前用户正在使用 HDP 堆栈中包含的 Spark 2.3。目标是在 HDP 集群之外启用 Apache Spark 3.0,而不会中断当前作业。
什么是最好的方法?在 HDP 集群之外设置 apache 3.0 客户端节点并从新客户端节点提交?
对此有什么建议吗?避免与当前 HDP 堆栈及其组件发生冲突的事情?
从带有特定(HDP 2.6)Hadoop,Hive 版本的 spark 源代码3.0.1构建 spark 3.0.1。然后仅将其部署在 HDP 客户端节点中。Spark 3.0.1 预构建的二进制文件与 Hive 1.2.1 存在兼容性问题,因为它是使用最新的 hive 构建的。
构建选项:
./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive-1.2 -Phive-thriftserver -DskipTests -Dmaven.test.skip=true clean package