24

我在 Hive 中实施了一项任务。目前它在我的单节点集群上运行良好。现在我计划在 AWS 上部署它。

我对AWS一无所知。如果我打算部署它,那么我应该选择 Amazon EC2 还是 Amazon EMR?

我想提高我的任务的性能。哪一个对我来说更好更可靠?如何接近他们?我听说我们也可以像在 AWS 上一样注册我们的 VM 设置。是否可以?

请尽快给我建议。

非常感谢。

4

3 回答 3

31

EMR 是安装和配置了 Hadoop(以及可选的 Hive 和/或 Pig)的 EC2 实例的集合。如果您使用集群来运行 Hadoop/Hive/Pig 作业,那么 EMR 是您的最佳选择。与 EC2 实例相比,EMR 实例的成本要高一些。今天对亚马逊价格的快速检查显示,小型 EC2 实例的成本为 0.08 美元/小时,而小型 EMR 实例的成本为 0.015 美元/小时。在我看来,为自己省去安装和设置 Hadoop(以及 Hive 和 Pig)、创建和维护以及 AMI 和使用它的麻烦,完全值得支付额外的钱。此外,EMR 的 Hadoop 和 Hive 版本有一些补丁在 Apache Hive 上不可用(至少目前还没有)。如果您使用 EC2,您可能会使用 Apache Hadoop 和 Hive(或者可能是 cloudera 发行版)并且不会ALTER TABLE my_table RECOVER PARTITIONS

参考:

于 2012-04-25T01:54:55.490 回答
6

我建议您不要尝试部署自己的 Hadoop 集群,除非您有 2-3 个月的空闲时间,并且您身边有一位 hadoop 专家。

Elastic MapReduce 将允许您通过提供预配置的 hadoop 环境快速入门。看你只有一份工作,应该没问题。

于 2012-04-23T19:27:58.393 回答
2

一般来说,从历史上看,EMR 远远落后于最新版本的 Hadoop 组件,而且有些组件完全丢失了。这是使用另一个发行版的主要原因。例如,如果您想要 HBase,它不在 EMR 中,但不是。今天,EMR 中没有 Spark。EMR 通常会滞后。

也就是说,如果您不使用最新最好的功能,请使用 EMR。

于 2014-06-03T15:57:47.743 回答