1

我可以理解 EFS 可以挂载到多个 EC2 实例。

是否可以从多个 Hadoop 集群连接到 AWS EFS?

或者它是否附加到特定的集群?

我们可以使用 API 连接到 Hadoop 集群之外的 EFS 吗?

4

1 回答 1

2

您正在为您的 Hadoop 集群使用Cloudera 发行版,因此您可以随意配置。

作为比较,Amazon EMR(AWS 托管 Hadoop 服务)的用户通常从两种存储类型中进行选择:

  • 实例存储:这是直连的磁盘存储,所以速度非常快。某些实例类型(例如 m3、d2)提供大容量磁盘存储,这对于 HDFS 非常有用。其他实例类型提供非常快的 SSD 存储,但通常尺寸较小。请注意,当 EMR 集群终止时,Instance Store 的内容会丢失。
  • EBS 卷:这些是网络附加磁盘,可提供更大的存储空间(每个卷最多 16TB)。同样,当 EMR 集群终止时,内容会丢失。EBS 卷和实例存储也可以一起使用。

对于 EMR(同样,不是您的情况),用户将输入和输出数据保存在 Amazon S3 中作为持久数据存储。这样,集群终止时数据不会丢失。好处是集群可以在不使用时关闭(因此可以节省资金),并且在需要更多处理能力时可以启动额外的集群。这在集群永久保留且无法扩展或缩减的传统本地设置中是不可能的。

所以,回到您的 Cloudera 集群……您可能会使用HDFS作为存储,在这种情况下,您需要附加磁盘存储。您还可以选择使用 S3 来存储数据,这比磁盘存储更便宜。

是的,您可以通过 NTFS 附加Amazon EFS 卷,但 EFS 通常用于在 EC2 实例之间共享磁盘,这不是 HDFS 的操作方式(它假设本地附加磁盘,分布式共享发生在 NodeManager 级别)。

我建议调查一下您是否可以使用 Amazon EMR 而不是部署自己的 Hadoop 集群,因为它具有扩展、临时集群、自动部署和定期升级的好处。如果您必须使用 Cloudera,您将自行负责管理和维护集群。

于 2018-04-03T21:51:58.267 回答