hadoop - 如果我使用 S3 而不是 HDFS，Namenode 是否仍然需要？

Question

最近我正在使用 S3 在 Object Store 上设置我的 Hadoop 集群，所有数据文件都存储在 S3 而不是 HDFS 中，并且我在 S3 上成功运行了 spark 和 MP，所以我想知道我的 namenode 是否仍然需要，如果是，那是什么当我在 S3 上运行 hadoop 应用程序时，我的 namenode 会做什么？谢谢。

score 4 · Accepted Answer

不，前提是您有办法处理 S3 缺乏交付工作提交者所需的一致性这一事实。每隔一段时间，如果 S3 的列表足够不一致，您的结果将是无效的，您甚至不会注意到。

AWS 上 Spark 的不同供应商以自己的方式解决了这个问题。如果您使用的是 ASF spark，则没有任何捆绑软件可以做到这一点。

https://www.youtube.com/watch?v=BgHrff5yAQo

hadoop - 如果我使用 S3 而不是 HDFS，Namenode 是否仍然需要？

1 回答 1

Related

Reference