我已经看到 redhat 提出了一种可能的解决方案,其中 GlusterFS 作为 hadoop 的后端。在这种情况下,您可以使用 namenode/datanode 架构并将其替换为 glusterfs,同时您仍然具有 Hadoop Mapreduce api-compatibility。
只是想知道性能与原生 HDFS 相比如何?它真的准备好生产了吗?它是否也支持所有 hadoop 生态系统?例如 Solr Cloud、Spark、Impala 等。
免责声明:我为存储供应商工作。 出色地。我对 GlusterFS 了解不多,但我可以谈论Lustre,因为它在一天结束时是 POSIX。它是并行文件系统,但我最近研究的基准表明它确实优于 HDFS。但它绝对是为您的数据提供单一名称空间的生产就绪替代方案(不再需要 HDFS 摄取)
今天的 Hadoop 生态系统有什么作用? 我今天在生产中看到的是 Spark、Hive、Hbase。Imapala 在我看来它需要 HDFS 的某些部分,这就是为什么它不适用于 POSIX FS 并且它不是HCFS。我做了一个快速测试,我能够创建数据库和所有内容,但我无法获取任何行。
如果您需要进一步的帮助,请告诉我。