hortonworks-data-platform - 如何在 HortonWorks HDP 2.2 上安装 Apache Spark（使用 Ambari 构建）

Question

我使用 Ambari 成功构建了 HortonWorks HDP 2.2 的 5 节点集群。

但是我在已安装的服务列表中没有看到 Apache Spark。

我做了一些研究，发现 Ambari 没有安装某些组件，如色调等（Spark 不在该列表中，但我猜它没有安装）。

如何在我的 5 节点 HDP 2.2 上手动安装 Apache spark？

或者我应该删除我的集群并在不使用 Ambari 的情况下执行全新安装？

score 1 · Accepted Answer

Hortonworks 对 Spark 的支持即将到来，但尚未完全完成（详细信息和博客）。

可以在此处找到有关如何将 Spark 与 HDP 集成的说明。

score 1 · Accepted Answer

您可以为 Spark 构建自己的 Ambari Stack。我最近就是这样做的，但我不能分享那个代码:(

我能做的是分享一个关于如何为 Ambari 做任何堆栈的教程，包括 Spark。Spark 有许多有趣的问题需要解决，本教程并未涵盖。无论如何希望它有所帮助。http://bit.ly/1HDBgS6

这里还有来自 Ambari 人的指南：https ://cwiki.apache.org/confluence/pages/viewpage.action?pageId=38571133 。

score 0 · Accepted Answer

1) Ambari 1.7x 不为 HDP 2.2 堆栈安装 Accumulo、Hue、Ranger 或 Solr 服务。要安装 Accumulo、Hue、Knox、Ranger 和 Solr 服务，请手动安装 HDP。

2) 带有 HDP 2.2 的 YARN 上的 Apache Spark 1.2.0：这里。

3) Spark 和 Hadoop：一起工作：

独立部署：通过独立部署，可以在 Hadoop 集群中的所有或部分机器上静态分配资源，并与 Hadoop MR 并行运行 Spark。然后，用户可以在她的 HDFS 数据上运行任意 Spark 作业。它的简单性使其成为许多 Hadoop 1.x 用户的首选部署。

Hadoop Yarn 部署：已经部署或计划部署 Hadoop Yarn 的 Hadoop 用户可以简单地在 YARN 上运行 Spark，无需任何预安装或管理访问权限。这使用户可以轻松地将 Spark 集成到他们的 Hadoop 堆栈中，并充分利用 Spark 以及在 Spark 之上运行的其他组件的全部功能。

MapReduce 中的 Spark：对于尚未运行 YARN 的 Hadoop 用户，除了独立部署之外，另一种选择是使用 SIMR 在 MapReduce 中启动 Spark 作业。使用 SIMR，用户可以在下载后几分钟内开始试用 Spark 并使用它的 shell！这极大地降低了部署的障碍，几乎每个人都可以使用 Spark。

hortonworks-data-platform - 如何在 HortonWorks HDP 2.2 上安装 Apache Spark（使用 Ambari 构建）

3 回答 3

Related

Reference