0

我正在尝试在 Amazon EC2 上永久设置 Hadoop。目前我正在做的是每天早上启动 EC2 实例并设置 Hadoop。有什么办法可以避免这个繁琐的步骤吗?我正在寻找可以加载到 EC2 上的 Hadoop 映像,让我的工作变得轻松。

我知道我可以将 EMR 用于 hadoop 服务。但是我不知道如何在不提交作业流的情况下启动 EMR (hadoop) 集群。我的意思是我需要一个没有任何作业在其中运行的 hadoop 集群。

最终我的目标是运行像DistmapSeal这样的生物信息学应用程序。要运行这些应用程序,有许多依赖项。所以我需要一个免费的hadoop集群来设置环境,然后运行这些应用程序。我希望它清楚我想要做什么。

谢谢。

4

2 回答 2

3

您可以执行以下操作之一:

选项 1. 从 EBS 支持的 EC2 实例开始,使用您最喜欢的 Linux 发行版。继续安装您需要的 Hadoop 软件。根据您需要的实例类型(主/从/等)创建尽可能多的 EC2 实例。然后,您可以在 AWS 控制台中创建您自己的 AMI(右键单击 EC2 实例并单击“创建 AMI”)。然后,您可以根据此 AMI 启动您自己的实例,数量不限。您还可以从实例存储支持的实例创建 AMI,但这意味着将所有内容转储到 S3 并从那里创建一个 AMI。有很多关于这个的教程,如果您需要指导,请发表评论:)

选项 2. 从基于 Hadoop 的 AMI 开始,在进行自己的配置/添加依赖项后重复上述步骤。我继续从 AWS 控制台搜索 Hadoop AMI,在 EU-West-1 中有 48 个(不确定您正在使用哪个区域)。

选项 3. 以交互模式启动 EMR 集群。还有一个选项可以在完成作业流程后使集群保持活动状态。如果您还为 EMR 实例设置了 EC2 密钥,您应该能够通过 SSH 访问它们并拥有一个功能正常的 Hadoop 集群(虽然不确定依赖关系,您可能最好自己滚动)。

我希望我能正确理解你想要达到的目标,这会有所帮助。

于 2013-10-11T09:27:27.513 回答
1

这更像是一个配置管理和自动化问题。尝试像厨师和木偶一样的 CMT 来根据您的愿望完成这项工作。

于 2013-10-09T14:38:37.137 回答