hadoop - 与 Cloudera 和 Hortonworks 相比，Hadoop 发行版 MapR 的缺点是什么？

Question

Cloudera 和 Hortonworks 使用 HDFS，这是 Apache Hadoop 的基本概念之一。MapR 使用自己的概念/实现。您直接使用本机文件系统而不是 HDFS。您可以在 MapR 的网站上找到使用这种方法的许多优势。

我想知道这种方法的缺点是什么？

score 5 · Accepted Answer

我会稍微不同地定义 MapR。它不使用 HDFS，而是提供自己的带有 NFS 接口的分布式文件系统。其中，与 HDFS 一样，都是基于本地 FS 的。
主要区别在于 HDFS 不是 Posix 和其他设计选择这一事实。
1. HDFS 不可变，而 MapR 可变。它可以被视为优势，特别是如果您需要它。
2. HDFS 不可挂载，而 MapR 可挂载。您可以使用与 Linux FS 一起使用的任何现有工具。

与 posix 无关：MapR 具有小块大小且没有单点故障 (NameNode)。MapR 具有多站点复制。

让我们也看看黑暗的一面：a）拥有可变数据（而不是不可变的 HDFS）使系统更加复杂。
b) 不知道（至少对我而言）在大型集群上工作。（我听说大约有数百个节点）。
c）从架构角度（有小块）我不确定如何实现良好的数据局部性。

score 0 · Accepted Answer

在一些公正的来源对 Apache Hadoop 与 MapR 版本进行广泛的基准测试（在不同的工作负载下）之前，我认为我们不能断然地说一个比另一个更快。如果记录将决定您的意见，那么您现在应该知道当前的 terasort 记录由 Yahoo 和 Apache Hadoop 持有。此处和此处的详细信息。

score 0 · Accepted Answer

大卫，分钟排序记录是由 MapR 在 2013 年 1 月 30 日在谷歌云中的谷歌计算引擎上创造的。请参阅我们的博客http://www.mapr.com/blog/hadoop-minutesort-record。该记录是在 2103 个节点的集群上创造的，1.5 TB 的数据在 59 秒内被排序。

另请参阅有关通过 MapR 在 54 秒内对 1 TB 数据进行排序的 Terasort 记录的早期博客。它设置在 Google Cloud 中 Google Compute Engine 上的 1003 节点集群上。该博客发布在http://www.mapr.com/blog/record-setting-hadoop-in-the-cloud。

另请参阅 answers.mapr.com 以获取有关此主题的许多问题/答案。

score 0 · Accepted Answer

MapR 和 Hortonworks/Cloudera 之间的主要缺点是 MapRFS（文件系统）和 MapR-DB（NOSQL 数据库）是专有的（不是开源的）。如果 MapR 不再存在，则假定这些产品将停止开发和支持。

由于 Hortonworks、Cloudera 和其他 Hadoop 发行版与开源社区一起使用/支持 HDFS/HBase，因此 HDFS/HBase 不被开发和支持的风险较小。

hadoop - 与 Cloudera 和 Hortonworks 相比，Hadoop 发行版 MapR 的缺点是什么？

4 回答 4

Related

Reference