我可以理解 EFS 可以挂载到多个 EC2 实例。
是否可以从多个 Hadoop 集群连接到 AWS EFS?
或者它是否附加到特定的集群?
我们可以使用 API 连接到 Hadoop 集群之外的 EFS 吗?
我可以理解 EFS 可以挂载到多个 EC2 实例。
是否可以从多个 Hadoop 集群连接到 AWS EFS?
或者它是否附加到特定的集群?
我们可以使用 API 连接到 Hadoop 集群之外的 EFS 吗?
您正在为您的 Hadoop 集群使用Cloudera 发行版,因此您可以随意配置。
作为比较,Amazon EMR(AWS 托管 Hadoop 服务)的用户通常从两种存储类型中进行选择:
对于 EMR(同样,不是您的情况),用户将输入和输出数据保存在 Amazon S3 中作为持久数据存储。这样,集群终止时数据不会丢失。好处是集群可以在不使用时关闭(因此可以节省资金),并且在需要更多处理能力时可以启动额外的集群。这在集群永久保留且无法扩展或缩减的传统本地设置中是不可能的。
所以,回到您的 Cloudera 集群……您可能会使用HDFS作为存储,在这种情况下,您需要附加磁盘存储。您还可以选择使用 S3 来存储数据,这比磁盘存储更便宜。
是的,您可以通过 NTFS 附加Amazon EFS 卷,但 EFS 通常用于在 EC2 实例之间共享磁盘,这不是 HDFS 的操作方式(它假设本地附加磁盘,分布式共享发生在 NodeManager 级别)。
我建议调查一下您是否可以使用 Amazon EMR 而不是部署自己的 Hadoop 集群,因为它具有扩展、临时集群、自动部署和定期升级的好处。如果您必须使用 Cloudera,您将自行负责管理和维护集群。