有人可以概述各种可用的 Hadoop 发行版之间的各种差异:
使用 Apache Hadoop 发行版作为基准。
是否有充分的理由在标准 Apache Hadoop 发行版上使用这些发行版之一?
有人可以概述各种可用的 Hadoop 发行版之间的各种差异:
使用 Apache Hadoop 发行版作为基准。
是否有充分的理由在标准 Apache Hadoop 发行版上使用这些发行版之一?
免责声明:今年夏天我在 Cloudera 实习(但我最好的一些朋友在雅虎!:-))
Yahoo 发行版是他们在集群的某些子集上运行(运行?)的 Hadoop 20 版本。它包括一组用于稳定性、错误修复等的补丁。它是一个源版本;它没有 rpm 或 debian 软件包等对管理员友好的功能。
Cloudera 发行版是 rpms 和 debs 形式的软件包(源代码也可用)。这意味着您可以通过标准方法等获取更新。它还包括稳定性和错误修复补丁。它一直在维护(并不是说雅虎不是——我想人们可以去 github 上查看他们上次更新它的时间)。它还打包了 Pig 和 Hive。
Cloudera 的 Hadoop 20 发行版处于测试阶段,18 被认为是稳定的(Cloudera 博客上对此有更多信息)。18 版本还包括 Hive 和 Pig 的包;对于 20,您必须自己构建它们(虽然存在补丁,但目前还没有支持 20 的 Pig 或 Hive 的官方版本)。Cloudera 和雅虎 20 版本之间很可能有很大的重叠;两者都提供清单,因此您可以检查。Cloudera 发行版的最新文档位于http://archive.cloudera.com
雅虎不为其分发提供支持;他们将补丁版本作为服务提供给社区,因此感兴趣的人可以构建雅虎内部运行的内容。鉴于 Yahoo 集群的规模,这是一个重大贡献,尤其是如果您不是一直遵循 JIRA 的 Hadoop 开发人员。Cloudera 支持他们的商业发行,并通过 Hadoop 邮件列表提供一些社区支持,对于发行版特定的问题,在他们的 GetSatisfaction 页面上。
两者都与原版 Apache 发行版完全不同,因为它们会在不同版本之间对其进行修补(cloudera 版本 20 有 60 多个补丁!)。
雅虎已经停止了它自己的发行版并专注于 Apache Hadoop。
http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/
最近,HortonWorks (www.hortonworks.com) 从雅虎分拆出来。现在 HortonWorks 也将提供与雅虎不同的支持。
http://www.hortonworks.com/about-us/our-manifesto/
Cloudera 与 HortonWorks 的路线相同
http://www.cloudera.com/products-services/
主要区别在于 HortonWorks 希望使 Apache 发行版稳定、易于安装等。同时,Cloudera 拥有自己的基于 Apache Hadoop 的发行版 CDH*。
选择 Hadoop 发行版(例如 Cloudera、Hortonworks 或 MapR)而不是 Apache Hadoop 有不同的原因。两大优势是工具支持和商业支持。在正确且兼容的版本中“收集和集成”所有 Hadoop 框架(如 Pig、Hive 等)也有很多麻烦。
看看我在 InfoQ 上的文章。它解释了 Apache Hadoop、Hadoop 发行版和大数据套件之间的区别,以及何时使用哪一个:
http://www.infoq.com/articles/BigDataPlatform
最好的祝福,
Kai Wähner (@KaiWahner, www.kai-waehner.de/blog)
SquareCog 在几乎所有方面都是正确的,除了:Yahoo! 分发是在 Yahoo! 的所有生产集群上运行的,而不是它们的子集。总共有超过 25,000 台机器。雅虎!分销已经进行了广泛的端到端测试,以确保可靠、一致的操作。另一个发行版在应用补丁方面更加自由,因此可能具有更多功能,但尚未经过广泛测试。