想到数据湖的最简单方法是想象这个大型容器,它就像一个真正的湖泊,河流流入河流,你永远不知道河流来自哪里(或河流的“类型”)。
Data Lake能够存储大量不同类型的数据(结构化数据、非结构化数据、日志文件、实时数据、图像等)并将其混合在一起,以关联许多不同的数据类型。这里的关键是我们正在从传统方式转向现代工具(如 Hadoop、Cassandra、NoSQL DB 等)。
有一大堆数据正在创建,如果我们可以分析它们,我们可能会从中获得一些价值。我们可以使用云来获取这些数据,将其放在商店中并进行分析。在 Azure 中,我们有Azure Data Lake Store。我们可以获取所有这些数据,并将其存储在 Azure Data Lake Store 中。Azure Data Lake Store 就像一个基于云的文件服务或文件系统,其大小几乎不受限制。
我们可以在该存储中的数据之上运行服务。因此,您可以在 HDInsight 群集中使用 Hadoop 或 Spark,也可以使用 Azure Data Lake 分析服务,它是 Azure Data Lake Store 的补充。该服务将允许您运行有效查询存储在 Azure Data Lake 存储中的数据并生成输出结果的作业。
Azure Data Lake Store 是我们可以存储我们想要分析的所有数据的地方。Azure 数据湖分析即服务,我们可以在其中运行查询该数据以生成某种输出以进行分析的作业。Hadoop是特定技术/(开源分布式数据处理集群技术)。您可以使用 hadoop 或使用不同的工具来实现数据湖。