1

您好,我是 Hadoop 新手,对版本名称很困惑,我应该在 1.x(强大的支持和学习资源)、2.2 或 0.23 中使用哪一个。

我已经读到 hadoop 正在从 v0.23 ( link1 ) 完全迁移到 YARN。
但与此同时,hadoop v2.0 正在向 YARN ( link2 ) 迁移,我可以在 Hadoop 2.2 本身中看到 YARN 配置文件。

  • 但是由于 0.23 对我来说似乎是最新版本,所以 2.2 也支持 YARN 吗?(参考链接 1,它说 hadoop 将从 v0.23 开始支持 YARN)
  • 作为初学者,我应该使用 1.x 或 2.x 哪个版本来学习 hadoop 的视角。
  • 其他适用于 hadoop 的技术(如 pig、hive 等)是否可用于最新版本的 hadoop?

谢谢。

更新
谢谢大家的回复。我最终使用了 hadoop2.2,因为所有著名的教程和资源都已过时,尽管我找到了一本好书来开始使用 v2.2。

“Hadoop:权威指南,第三版”,Tom White(在此处购买

支持hadoop v2.2。

源代码在github https://github.com/tomwhite/hadoop-book上给出

正如github上提到的,本书的代码是用

This version of the code has been tested with:
 * Hadoop 1.2.1/0.22.0/0.23.x/2.2.0
 * Avro 1.5.4
 * Pig 0.9.1
 * Hive 0.8.0
 * HBase 0.90.4/0.94.15
 * ZooKeeper 3.4.2
 * Sqoop 1.4.0-incubating
 * MRUnit 0.8.0-incubating

希望能帮助到你..!!!

4

2 回答 2

3

有几个活跃的发布系列。1.x 版本系列是 0.20 版本系列的延续。在 0.23 发布几周后,以前称为 0.20.205 的 0.20 分支被重新编号为 1.0。0.20.205 和 1.0 之间几乎没有功能差异。这只是重新编号。

0.23 包括几个主要的新特性,包括一个新的 MapReduce 运行时,称为 MapReduce 2,在一个名为 YARN(Yet Another Resource Negotiator)的新系统上实现,这是一个用于运行分布式应用程序的通用资源管理系统。同样,2.x 版本是 0.23 版本系列的延续。所以2.2也支持YARN。

根据Hadoop 2.2 发行说明

  • 1.2.X - 当前稳定版本,1.2 版本

  • 2.2.X - 当前稳定的 2.x 版本

  • 0.23.X - 类似于 2.XX,但缺少 NN HA。

我建议您从Cloudera发行版开始,因为您刚刚开始学习。CDH 4.5 包含您正在寻找的 YARN 功能。您也可以尝试HortonWorks发行版。与这些供应商合作的优势在于,您无需担心 Hive、Pig 等哪个版本的组件可以与您的 Hadoop 安装配合使用。

于 2014-02-18T16:31:05.880 回答
1

我建议你从 hadoop-2.2.0 开始,它提供了很好的知识。行业更喜欢 YARN 本身,并且在生产中仅存在 2.x

于 2014-02-19T11:36:37.143 回答