0

我是hadoop的新手。

我听说 mapR 是挂载 hadoop HDFS 而不是熔断的更好方法。

但是大多数相关文章只是描述了mapR hadoop而不是纯粹的apache hadoop。

任何人都有使用 mapR 安装纯 apache hadoop 的经验吗?

提前致谢。

4

2 回答 2

1

MapR 不仅仅是一种挂载 HDFS 的方法。

MapR 包括 Hadoop 和许多 Apache 生态系统组件以及许多其他非 Apache 组件,例如 Cascading。它还包括包含 Solr 的 LucidWorks。

MapR 还包括对 HDFS 的重新实现,称为 MaprFS。MaprFS 具有更高的性能,具有读写语义,允许在写入期间读取,支持事务正确的镜像和快照,没有名称节点,无需联合的 futzing 即可扩展,本质上是 HA,没有 HA NameNode 的所有混乱,并且可以访问通过分布式 NFS 系统。

哦,除了通过 NFS 的 POSIX 式访问和 HDFS API 之外,MaprFS 还支持 HBase API。

MapR 中的 map-reduce 层已被部分重写,以利用文件系统的极高性能。这就是 MapR 去年秋天打破分钟排序记录的原因。

抛开命名不谈,MapR 包含了所有其他发行版所提供的所有开源软件,以及更多其他软件。“纯 Hadoop”几乎没用。您需要 Pig 和/或 Hive。您可能应该研究级联/烫伤。您可能需要 Mahout。您肯定需要将您的系统连接到遗留数据源和报告系统,而这正是 NFS 所简化的。

请记住,通过 NFS 或 Fuze 安装 HDFS 不会让您到达您想要的位置。HDFS 只是没有合适的语义来通过 NFS 或普通文件系统 API 进行访问。它只是有太多的妥协。

另一方面,使用 MapR,您甚至可以通过 NFS 在集群文件系统之上运行 MySQL 或 Postgress 等数据库。

MapR 共有三个版本。

M3 是免费的,并为您提供所有性能和可扩展性,但将您限制为单个 NFS 服务器,并且没有镜像、快照、卷局部性或与 HBase 兼容的 API(当然,您可以运行 HBase 本身)。M3 中的 HA 也已降级,因此需要一个小时才能对某些功能进行故障转移。

免费试用期过后,M5 需要付费,并为您提供快照、镜像、将某些数据强制到不同拓扑的能力和无限的 NFS 服务器。

M7 也需要花钱,并将 HBase API 添加到 M5 可以做的所有事情中。

有关更多信息,请参见 mapr.com。

于 2013-06-19T07:35:32.580 回答
1

总结一下 Ted 所说的话,

你不是真的“用 mapR 安装纯 apache hadoop?”。Hadoop 不应与 HDFS 混淆。虽然它们在对话过程中往往可以互换,但 HDFS 明确指的是实际的分布式文件系统(因此 HDFS 中的 DFS)。HDFS 必须使用特定的hadoop 命令进行交互,即“hadoop dfs ls /”将列出hdfs 的根目录。

MapR 超越了 hadoop 为您提供的默认值。一,您可以使用更高效的 maprfs(hdfs 的重写)与文件系统进行交互。您可以做的另一件事实际上是 NFS 挂载 HDFS/MapRFS,以便您可以本地操作文件系统,而无需执行任何特殊操作。它像任何其他 NFS 文件系统一样被处理,除了在这种情况下,它分布在您的集群中。

于 2014-05-05T23:59:44.657 回答