我使用 Ambari 成功构建了 HortonWorks HDP 2.2 的 5 节点集群。
但是我在已安装的服务列表中没有看到 Apache Spark。
我做了一些研究,发现 Ambari 没有安装某些组件,如色调等(Spark 不在该列表中,但我猜它没有安装)。
如何在我的 5 节点 HDP 2.2 上手动安装 Apache spark?
或者我应该删除我的集群并在不使用 Ambari 的情况下执行全新安装?
我使用 Ambari 成功构建了 HortonWorks HDP 2.2 的 5 节点集群。
但是我在已安装的服务列表中没有看到 Apache Spark。
我做了一些研究,发现 Ambari 没有安装某些组件,如色调等(Spark 不在该列表中,但我猜它没有安装)。
如何在我的 5 节点 HDP 2.2 上手动安装 Apache spark?
或者我应该删除我的集群并在不使用 Ambari 的情况下执行全新安装?
您可以为 Spark 构建自己的 Ambari Stack。我最近就是这样做的,但我不能分享那个代码:(
我能做的是分享一个关于如何为 Ambari 做任何堆栈的教程,包括 Spark。Spark 有许多有趣的问题需要解决,本教程并未涵盖。无论如何希望它有所帮助。http://bit.ly/1HDBgS6
这里还有来自 Ambari 人的指南:https ://cwiki.apache.org/confluence/pages/viewpage.action?pageId=38571133 。
1) Ambari 1.7x 不为 HDP 2.2 堆栈安装 Accumulo、Hue、Ranger 或 Solr 服务。要安装 Accumulo、Hue、Knox、Ranger 和 Solr 服务,请手动安装 HDP。
2) 带有 HDP 2.2 的 YARN 上的 Apache Spark 1.2.0:这里。
独立部署:通过独立部署,可以在 Hadoop 集群中的所有或部分机器上静态分配资源,并与 Hadoop MR 并行运行 Spark。然后,用户可以在她的 HDFS 数据上运行任意 Spark 作业。它的简单性使其成为许多 Hadoop 1.x 用户的首选部署。
Hadoop Yarn 部署:已经部署或计划部署 Hadoop Yarn 的 Hadoop 用户可以简单地在 YARN 上运行 Spark,无需任何预安装或管理访问权限。这使用户可以轻松地将 Spark 集成到他们的 Hadoop 堆栈中,并充分利用 Spark 以及在 Spark 之上运行的其他组件的全部功能。
MapReduce 中的 Spark:对于尚未运行 YARN 的 Hadoop 用户,除了独立部署之外,另一种选择是使用 SIMR 在 MapReduce 中启动 Spark 作业。使用 SIMR,用户可以在下载后几分钟内开始试用 Spark 并使用它的 shell!这极大地降低了部署的障碍,几乎每个人都可以使用 Spark。