我想创建一个 Hadoop 作业并在 EC2 Map Reduce 上运行它。我还想在上传到 EC2 之前在本地运行该作业。
我应该在本地拥有哪个版本/类型的 Hadoop?我可以使用 Cloudera 虚拟机吗?亚马逊使用哪个 Hadoop 版本?
我想创建一个 Hadoop 作业并在 EC2 Map Reduce 上运行它。我还想在上传到 EC2 之前在本地运行该作业。
我应该在本地拥有哪个版本/类型的 Hadoop?我可以使用 Cloudera 虚拟机吗?亚马逊使用哪个 Hadoop 版本?
Amazon Elastic MapReduce 支持 Hadoop 0.18、0.20 和 0.20.205 (http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EnvironmentConfig_AMIVersion.html#ami-versions-supported)。
您可以指定要运行哪一个。您不能选择 Cloudera;我想你可以在 EC2 上运行原始实例并设置你自己的 Cloudera 集群。
在本地运行与 EMR 无关;只需在伪分布式模式下设置一个 Hadoop 集群进行测试。
Amazon EMR 现在使用 Hadoop 2.4.0。更新信息: http ://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/ami-versions-supported.html
Recently Amazon also added support for MapR M3 and M5:
http://aws.amazon.com/elasticmapreduce/mapr/
You can download MapR binaries at the following link:
http://www.mapr.com/products/download/download-mapr-on-premise
Shameless plug: At Axemblr.com we are building an alternative to Amazon EMR based on Cloudera Manager target at multiple clouds. Drop us a line at hello@axemblr.com if you want early acceess.