linux - 我在哪里可以找到 EC2 上的 AMI for Hadoop？

Question

我正在尝试在 Amazon EC2 上永久设置 Hadoop。目前我正在做的是每天早上启动 EC2 实例并设置 Hadoop。有什么办法可以避免这个繁琐的步骤吗？我正在寻找可以加载到 EC2 上的 Hadoop 映像，让我的工作变得轻松。

我知道我可以将 EMR 用于 hadoop 服务。但是我不知道如何在不提交作业流的情况下启动 EMR (hadoop) 集群。我的意思是我需要一个没有任何作业在其中运行的 hadoop 集群。

最终我的目标是运行像Distmap和Seal这样的生物信息学应用程序。要运行这些应用程序，有许多依赖项。所以我需要一个免费的hadoop集群来设置环境，然后运行这些应用程序。我希望它清楚我想要做什么。

谢谢。

score 3 · Accepted Answer

您可以执行以下操作之一：

选项 1. 从 EBS 支持的 EC2 实例开始，使用您最喜欢的 Linux 发行版。继续安装您需要的 Hadoop 软件。根据您需要的实例类型（主/从/等）创建尽可能多的 EC2 实例。然后，您可以在 AWS 控制台中创建您自己的 AMI（右键单击 EC2 实例并单击“创建 AMI”）。然后，您可以根据此 AMI 启动您自己的实例，数量不限。您还可以从实例存储支持的实例创建 AMI，但这意味着将所有内容转储到 S3 并从那里创建一个 AMI。有很多关于这个的教程，如果您需要指导，请发表评论:)

选项 2. 从基于 Hadoop 的 AMI 开始，在进行自己的配置/添加依赖项后重复上述步骤。我继续从 AWS 控制台搜索 Hadoop AMI，在 EU-West-1 中有 48 个（不确定您正在使用哪个区域）。

选项 3. 以交互模式启动 EMR 集群。还有一个选项可以在完成作业流程后使集群保持活动状态。如果您还为 EMR 实例设置了 EC2 密钥，您应该能够通过 SSH 访问它们并拥有一个功能正常的 Hadoop 集群（虽然不确定依赖关系，您可能最好自己滚动）。

我希望我能正确理解你想要达到的目标，这会有所帮助。

score 1 · Accepted Answer

这更像是一个配置管理和自动化问题。尝试像厨师和木偶一样的 CMT 来根据您的愿望完成这项工作。

linux - 我在哪里可以找到 EC2 上的 AMI for Hadoop？

2 回答 2

Related

Reference