2

我有一个使用 HDFS 作为底层存储分布式文件系统的集群,但我刚刚阅读了有关快速灵活的alluxio的信息。所以,我的问题是:我应该将Alluxio 与HDFS 一起使用还是Alluxio 是HDFS 的替代品?(我在他们的网站上看到,存储文件系统的共享存储可以是网络文件系统(NFS)。所以,我认为不需要HDFS。如果我犯了错误,请纠正我)。

在哪种模式下性能更好:HDFS with Alluxio 或 Alluxio stanalone(我的意思是,standalone 是指在集群中单独使用,而不是在本地使用)。

4

1 回答 1

10

Alluxio 维护者的回复。

首先,Alluxio不是HDFS 的替代品。相反,它是其他分布式/云存储系统之上的一个新抽象层,包括 HDFS、S3、Azure 对象存储和其他可能的选择。在您的情况下,如果您的数据已经在 HDFS 中,您可能仍会将 HDFS 作为 Alluxio 的持久数据层。

用户将Alluxio放在图片中并看到显着优势的典型场景包括:

  • 您的物理数据不在您的计算机中。例如,您的大数据引擎正在从 S3 或其他对象存储中读取数据。在这种情况下,通过部署 Alluxio 和计算节点,可以使 Alluxio 充当文件系统级缓存,以避免重复通过网络获取数据。见http://www.alluxio.org/overview/remote-data-acceleration
  • 您正在管理多个存储并希望公开单个数据访问层以简化管理。例如,可以将多个 S3/ 存储桶“挂载”到一个 Alluxio 部署中,以便它们在同一个命名空间下显示为不同的目录。见http://www.alluxio.org/overview/storage-unification

关于你原来的表现问题。答案是,这取决于。如果您的 HDFS 远离计算,您会期望获得良好的性能提升。我还看到了 HDFS 遇到瓶颈的情况,Alluxio 也可能有助于减少负载并为某些关键任务作业提供良好的 SLA。

于 2018-09-04T16:59:44.327 回答