6

Cloudera 和 Hortonworks 使用 HDFS,这是 Apache Hadoop 的基本概念之一。MapR 使用自己的概念/实现。您直接使用本机文件系统而不是 HDFS。您可以在 MapR 的网站上找到使用这种方法的许多优势。

我想知道这种方法的缺点是什么?

4

4 回答 4

5

我会稍微不同地定义 MapR。它不使用 HDFS,而是提供自己的带有 NFS 接口的分布式文件系统。其中,与 HDFS 一样,都是基于本地 FS 的。
主要区别在于 HDFS 不是 Posix 和其他设计选择这一事实。
1. HDFS 不可变,而 MapR 可变。它可以被视为优势,特别是如果您需要它。
2. HDFS 不可挂载,而 MapR 可挂载。您可以使用与 Linux FS 一起使用的任何现有工具。

与 posix 无关:MapR 具有小块大小且没有单点故障 (NameNode)。MapR 具有多站点复制。

让我们也看看黑暗的一面:a)拥有可变数据(而不是不可变的 HDFS)使系统更加复杂。
b) 不知道(至少对我而言)在大型集群上工作。(我听说大约有数百个节点)。
c)从架构角度(有小块)我不确定如何实现良好的数据局部性。

于 2013-02-26T06:43:29.123 回答
0

在一些公正的来源对 Apache Hadoop 与 MapR 版本进行广泛的基准测试(在不同的工作负载下)之前,我认为我们不能断然地说一个比另一个更快。如果记录将决定您的意见,那么您现在应该知道当前的 terasort 记录由 Yahoo 和 Apache Hadoop 持有。此处此处的详细信息。

于 2013-10-21T15:10:01.597 回答
0

大卫,分钟排序记录是由 MapR 在 2013 年 1 月 30 日在谷歌云中的谷歌计算引擎上创造的。请参阅我们的博客http://www.mapr.com/blog/hadoop-minutesort-record。该记录是在 2103 个节点的集群上创造的,1.5 TB 的数据在 59 秒内被排序。

另请参阅有关通过 MapR 在 54 秒内对 1 TB 数据进行排序的 Terasort 记录的早期博客。它设置在 Google Cloud 中 Google Compute Engine 上的 1003 节点集群上。该博客发布在http://www.mapr.com/blog/record-setting-hadoop-in-the-cloud

另请参阅 answers.mapr.com 以获取有关此主题的许多问题/答案。

于 2013-03-03T04:31:27.620 回答
0

MapR 和 Hortonworks/Cloudera 之间的主要缺点是 MapRFS(文件系统)和 MapR-DB(NOSQL 数据库)是专有的(不是开源的)。如果 MapR 不再存在,则假定这些产品将停止开发和支持。

由于 Hortonworks、Cloudera 和其他 Hadoop 发行版与开源社区一起使用/支持 HDFS/HBase,因此 HDFS/HBase 不被开发和支持的风险较小。

于 2015-05-16T22:54:18.367 回答