0

我需要在 AWS 上构建一个数据湖,但我不知道 S3 与 HDFS 到底有什么不同。我在互联网上找到了一些答案,但我仍然不明白真正的区别。

我还需要知道是否有人在 AWS 中拥有 HDFS 和 S3 的数据湖架构。

4

1 回答 1

3

HDFS只能被它所在的 Hadoop 集群访问。如果集群关闭或终止,HDFS 中的数据将消失。

Amazon S3 中的数据:

  • 始终可用(不能“关闭”)
  • 可被多个集群访问
  • 其他 AWS 服务可以访问,例如 Amazon Athena(即“Presto 即服务”,因此您甚至可能不需要 Hadoop 集群)
  • 具有多个存储类,例如以较低的成本存储访问频率较低的数据
  • 没有存储限制(而 HDFS 仅限于 Hadoop 集群中可用的存储)
于 2019-07-12T04:01:18.650 回答