hadoop - 是否可以将 mapR 与纯 apache hadoop 结合起来？

Question

我是hadoop的新手。

我听说 mapR 是挂载 hadoop HDFS 而不是熔断的更好方法。

但是大多数相关文章只是描述了mapR hadoop而不是纯粹的apache hadoop。

任何人都有使用 mapR 安装纯 apache hadoop 的经验吗？

提前致谢。

score 1 · Accepted Answer

MapR 不仅仅是一种挂载 HDFS 的方法。

MapR 包括 Hadoop 和许多 Apache 生态系统组件以及许多其他非 Apache 组件，例如 Cascading。它还包括包含 Solr 的 LucidWorks。

MapR 还包括对 HDFS 的重新实现，称为 MaprFS。MaprFS 具有更高的性能，具有读写语义，允许在写入期间读取，支持事务正确的镜像和快照，没有名称节点，无需联合的 futzing 即可扩展，本质上是 HA，没有 HA NameNode 的所有混乱，并且可以访问通过分布式 NFS 系统。

哦，除了通过 NFS 的 POSIX 式访问和 HDFS API 之外，MaprFS 还支持 HBase API。

MapR 中的 map-reduce 层已被部分重写，以利用文件系统的极高性能。这就是 MapR 去年秋天打破分钟排序记录的原因。

抛开命名不谈，MapR 包含了所有其他发行版所提供的所有开源软件，以及更多其他软件。“纯 Hadoop”几乎没用。您需要 Pig 和/或 Hive。您可能应该研究级联/烫伤。您可能需要 Mahout。您肯定需要将您的系统连接到遗留数据源和报告系统，而这正是 NFS 所简化的。

请记住，通过 NFS 或 Fuze 安装 HDFS 不会让您到达您想要的位置。HDFS 只是没有合适的语义来通过 NFS 或普通文件系统 API 进行访问。它只是有太多的妥协。

另一方面，使用 MapR，您甚至可以通过 NFS 在集群文件系统之上运行 MySQL 或 Postgress 等数据库。

MapR 共有三个版本。

M3 是免费的，并为您提供所有性能和可扩展性，但将您限制为单个 NFS 服务器，并且没有镜像、快照、卷局部性或与 HBase 兼容的 API（当然，您可以运行 HBase 本身）。M3 中的 HA 也已降级，因此需要一个小时才能对某些功能进行故障转移。

免费试用期过后，M5 需要付费，并为您提供快照、镜像、将某些数据强制到不同拓扑的能力和无限的 NFS 服务器。

M7 也需要花钱，并将 HBase API 添加到 M5 可以做的所有事情中。

有关更多信息，请参见 mapr.com。

score 1 · Accepted Answer

总结一下 Ted 所说的话，

你不是真的“用 mapR 安装纯 apache hadoop？”。Hadoop 不应与 HDFS 混淆。虽然它们在对话过程中往往可以互换，但 HDFS 明确指的是实际的分布式文件系统（因此 HDFS 中的 DFS）。HDFS 必须使用特定的hadoop 命令进行交互，即“hadoop dfs ls /”将列出hdfs 的根目录。

MapR 超越了 hadoop 为您提供的默认值。一，您可以使用更高效的 maprfs（hdfs 的重写）与文件系统进行交互。您可以做的另一件事实际上是 NFS 挂载 HDFS/MapRFS，以便您可以本地操作文件系统，而无需执行任何特殊操作。它像任何其他 NFS 文件系统一样被处理，除了在这种情况下，它分布在您的集群中。

hadoop - 是否可以将 mapR 与纯 apache hadoop 结合起来？

2 回答 2

Related

Reference