hadoop - 如何在 Mesos 集群上运行 Hadoop？

Question

我正在尝试建立一个 Apache Mesos 集群并在其上运行 Hadoop-Job。这里的文档不是我的水平，所以我无法理解，也许这里有人可以解释我：

首先我应该建立一个工作的Hadoop集群吗？还是先搭建一个 Mesos 集群？我把奴隶指向哪里？在 Hadoop-slaves 文件或注册的 Mesos slaves 中应该只使用？

score 10 · Accepted Answer

Mesos 的目标是为您的集群运行一个抽象，其中 Hadoop 只是其他服务中的一项。为了使其工作，您需要首先将 Mesos 集群设置为主要组件，然后您可以开始使用 Mesos 抽象向该集群添加 Hadoop 等服务。

有一个来自 Mesosphere 的优秀教程，你应该看看，它详细解释了如何在 Mesos 之上运行 Hadoop，所以这是一个很好的起点。

或者，这家公司最近开始为Elastic Mesos提供服务，本质上类似于 Amazon 的 Elastic MapReduce。因此，如果您想在 Mesos 上快速开始使用 Hadoop，而不必经历配置一切的痛苦，那么这是一个很好的起点。

score 3 · Accepted Answer

一旦你有一个 mesos 集群设置并运行，以便从属出现在 Mesos WebUI 中，你可以通过执行以下步骤将 hadoop 添加到它：

首先，您必须设置 HDFS。Cloudera 的 hadoop 发行版是一种简单的方法。只需按照此链接上的说明进行设置即可。这将自动为您设置用户帐户以运行 MapReduce 作业
你只需要在你的主服务器上运行一个名称节点，在你的从服务器上运行一个数据节点。导航到localhost:50070将显示 namenode 已启动并正在运行，并且还会提供正在运行的数据节点列表。你现在不需要 tasktrackers 或 jobtracker
接下来要在 mesos 上集成 hadoop，请访问这个github 存储库。将其克隆到您的 PC 上并按照自述文件中的说明进行操作
到这个时候，你将在你的 master 上运行一个 jobtracker。导航到localhost:50030以查看 jobtracker 正在运行。你不需要你的奴隶上的任务跟踪器。Mesos 将使用您上传到 HDFS 的 tar 文件自动为您启动它们

您也可以咨询 Mesosphere 教程，了解您的任何疑问。只是不要遵循那里的所有步骤，因为它们不适用于最新的 Mesos 版本。

2 回答 2