Cloudera 和 Hortonworks 使用 HDFS,这是 Apache Hadoop 的基本概念之一。MapR 使用自己的概念/实现。您直接使用本机文件系统而不是 HDFS。您可以在 MapR 的网站上找到使用这种方法的许多优势。
我想知道这种方法的缺点是什么?
我会稍微不同地定义 MapR。它不使用 HDFS,而是提供自己的带有 NFS 接口的分布式文件系统。其中,与 HDFS 一样,都是基于本地 FS 的。
主要区别在于 HDFS 不是 Posix 和其他设计选择这一事实。
1. HDFS 不可变,而 MapR 可变。它可以被视为优势,特别是如果您需要它。
2. HDFS 不可挂载,而 MapR 可挂载。您可以使用与 Linux FS 一起使用的任何现有工具。
与 posix 无关:MapR 具有小块大小且没有单点故障 (NameNode)。MapR 具有多站点复制。
让我们也看看黑暗的一面:a)拥有可变数据(而不是不可变的 HDFS)使系统更加复杂。
b) 不知道(至少对我而言)在大型集群上工作。(我听说大约有数百个节点)。
c)从架构角度(有小块)我不确定如何实现良好的数据局部性。
大卫,分钟排序记录是由 MapR 在 2013 年 1 月 30 日在谷歌云中的谷歌计算引擎上创造的。请参阅我们的博客http://www.mapr.com/blog/hadoop-minutesort-record。该记录是在 2103 个节点的集群上创造的,1.5 TB 的数据在 59 秒内被排序。
另请参阅有关通过 MapR 在 54 秒内对 1 TB 数据进行排序的 Terasort 记录的早期博客。它设置在 Google Cloud 中 Google Compute Engine 上的 1003 节点集群上。该博客发布在http://www.mapr.com/blog/record-setting-hadoop-in-the-cloud。
另请参阅 answers.mapr.com 以获取有关此主题的许多问题/答案。
MapR 和 Hortonworks/Cloudera 之间的主要缺点是 MapRFS(文件系统)和 MapR-DB(NOSQL 数据库)是专有的(不是开源的)。如果 MapR 不再存在,则假定这些产品将停止开发和支持。
由于 Hortonworks、Cloudera 和其他 Hadoop 发行版与开源社区一起使用/支持 HDFS/HBase,因此 HDFS/HBase 不被开发和支持的风险较小。