7

有没有人尝试使用 GlusterFS 或 Ceph 作为 Hadoop 的后端?我不是在谈论只是使用插件来缝合东西。性能是否比 HDFS 本​​身更好?是否可以用于生产用途。

另外,将对象存储、hadoop hdfs 存储合并为一个存储真的是个好主意吗?或者最好将它们分开。

4

2 回答 2

8

我之前使用过 GlusterFS,它有一些不错的功能,但最后我选择在 Hadoop 中将 HDFS 用于分布式文件系统。

GlusterFS 的好处是它不需要主客户端节点。集群中的每个节点都是平等的,因此 GlusterFS 中没有单点故障。我在 GlusterFS 中发现有趣的另一件事是它有 glusterfs-client 模块,http://www.jamescoyle.net/how-to/439-mount-a-glusterfs-volume,当你想要存储文件时对于 glusterfs,您不需要与 GlusterFS apis 交互,您只需将文件复制到 glusterfs-client 中的挂载卷并完成工作就这么简单。

但是我发现 GlusterFS 很难集成到 Spark、Mapreduce 等 Hadoop 生态系统中。在 Hadoop 生态系统中,几乎所有组件都支持 HDFS。我认为 GlusterFS 可以很好地构建一个集群系统,例如独立于 Hadoop 的文件存储。

于 2015-12-19T11:24:07.357 回答
7

我曾尝试将 Ceph 作为 Hadoop 2.7 中的“插入式”HDFS 替代品,在解决了许多集成问题后,我发现它比在 terasort 基准测试中使用默认复制因子的 HDFS 慢两/三倍。我不知道这是什么原因。其他人尝试了不同的方法,结果相似:

http://www.snia.org/sites/default/files/SDC15_presentations/cloud_files/YuanZhou_big_data_analytics_on_object_store_r3.pdf

将对象和 hdfs 存储结合起来是个好主意吗?我认为这个问题是不正确的。HDFS(通过 Ozone 和 FUSE)和 Ceph 都提供了将它们用作对象存储和常规 POSIX 文件系统的能力,Ceph 也具有提供块存储的边缘,而 HDFS 目前正在讨论:https ://issues.apache.org /jira/browse/HDFS-11118 如果是“我可以同时将我的存储公开为 POSIX FS、对象、块存储吗?”的问题。那么答案将是,如果您的设计满足您对可扩展性和高可用性的要求,那么它实际上可能是一个好主意。

于 2016-08-27T06:10:17.697 回答