我是hadoop的新手。
我听说 mapR 是挂载 hadoop HDFS 而不是熔断的更好方法。
但是大多数相关文章只是描述了mapR hadoop而不是纯粹的apache hadoop。
任何人都有使用 mapR 安装纯 apache hadoop 的经验吗?
提前致谢。
MapR 不仅仅是一种挂载 HDFS 的方法。
MapR 包括 Hadoop 和许多 Apache 生态系统组件以及许多其他非 Apache 组件,例如 Cascading。它还包括包含 Solr 的 LucidWorks。
MapR 还包括对 HDFS 的重新实现,称为 MaprFS。MaprFS 具有更高的性能,具有读写语义,允许在写入期间读取,支持事务正确的镜像和快照,没有名称节点,无需联合的 futzing 即可扩展,本质上是 HA,没有 HA NameNode 的所有混乱,并且可以访问通过分布式 NFS 系统。
哦,除了通过 NFS 的 POSIX 式访问和 HDFS API 之外,MaprFS 还支持 HBase API。
MapR 中的 map-reduce 层已被部分重写,以利用文件系统的极高性能。这就是 MapR 去年秋天打破分钟排序记录的原因。
抛开命名不谈,MapR 包含了所有其他发行版所提供的所有开源软件,以及更多其他软件。“纯 Hadoop”几乎没用。您需要 Pig 和/或 Hive。您可能应该研究级联/烫伤。您可能需要 Mahout。您肯定需要将您的系统连接到遗留数据源和报告系统,而这正是 NFS 所简化的。
请记住,通过 NFS 或 Fuze 安装 HDFS 不会让您到达您想要的位置。HDFS 只是没有合适的语义来通过 NFS 或普通文件系统 API 进行访问。它只是有太多的妥协。
另一方面,使用 MapR,您甚至可以通过 NFS 在集群文件系统之上运行 MySQL 或 Postgress 等数据库。
MapR 共有三个版本。
M3 是免费的,并为您提供所有性能和可扩展性,但将您限制为单个 NFS 服务器,并且没有镜像、快照、卷局部性或与 HBase 兼容的 API(当然,您可以运行 HBase 本身)。M3 中的 HA 也已降级,因此需要一个小时才能对某些功能进行故障转移。
免费试用期过后,M5 需要付费,并为您提供快照、镜像、将某些数据强制到不同拓扑的能力和无限的 NFS 服务器。
M7 也需要花钱,并将 HBase API 添加到 M5 可以做的所有事情中。
有关更多信息,请参见 mapr.com。
总结一下 Ted 所说的话,
你不是真的“用 mapR 安装纯 apache hadoop?”。Hadoop 不应与 HDFS 混淆。虽然它们在对话过程中往往可以互换,但 HDFS 明确指的是实际的分布式文件系统(因此 HDFS 中的 DFS)。HDFS 必须使用特定的hadoop 命令进行交互,即“hadoop dfs ls /”将列出hdfs 的根目录。
MapR 超越了 hadoop 为您提供的默认值。一,您可以使用更高效的 maprfs(hdfs 的重写)与文件系统进行交互。您可以做的另一件事实际上是 NFS 挂载 HDFS/MapRFS,以便您可以本地操作文件系统,而无需执行任何特殊操作。它像任何其他 NFS 文件系统一样被处理,除了在这种情况下,它分布在您的集群中。