amazon-ec2 - Amazon EC2 与 Amazon EMR

Question

我在 Hive 中实施了一项任务。目前它在我的单节点集群上运行良好。现在我计划在 AWS 上部署它。

我对AWS一无所知。如果我打算部署它，那么我应该选择 Amazon EC2 还是 Amazon EMR？

我想提高我的任务的性能。哪一个对我来说更好更可靠？如何接近他们？我听说我们也可以像在 AWS 上一样注册我们的 VM 设置。是否可以？

请尽快给我建议。

非常感谢。

score 31 · Accepted Answer

EMR 是安装和配置了 Hadoop（以及可选的 Hive 和/或 Pig）的 EC2 实例的集合。如果您使用集群来运行 Hadoop/Hive/Pig 作业，那么 EMR 是您的最佳选择。与 EC2 实例相比，EMR 实例的成本要高一些。今天对亚马逊价格的快速检查显示，小型 EC2 实例的成本为 0.08 美元/小时，而小型 EMR 实例的成本为 0.015 美元/小时。在我看来，为自己省去安装和设置 Hadoop（以及 Hive 和 Pig）、创建和维护以及 AMI 和使用它的麻烦，完全值得支付额外的钱。此外，EMR 的 Hadoop 和 Hive 版本有一些补丁在 Apache Hive 上不可用（至少目前还没有）。如果您使用 EC2，您可能会使用 Apache Hadoop 和 Hive（或者可能是 cloudera 发行版）并且不会ALTER TABLE my_table RECOVER PARTITIONS

参考：

score 6 · Accepted Answer

我建议您不要尝试部署自己的 Hadoop 集群，除非您有 2-3 个月的空闲时间，并且您身边有一位 hadoop 专家。

Elastic MapReduce 将允许您通过提供预配置的 hadoop 环境快速入门。看你只有一份工作，应该没问题。

score 2 · Accepted Answer

一般来说，从历史上看，EMR 远远落后于最新版本的 Hadoop 组件，而且有些组件完全丢失了。这是使用另一个发行版的主要原因。例如，如果您想要 HBase，它不在 EMR 中，但不是。今天，EMR 中没有 Spark。EMR 通常会滞后。

也就是说，如果您不使用最新最好的功能，请使用 EMR。

amazon-ec2 - Amazon EC2 与 Amazon EMR

3 回答 3

Related

Reference