hadoop - 从头开始构建数据湖

Question

我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理及其用途；到处都是互联网。但是当问题出现时，如何从头开始构建一个没有来源。我想了解是否：

数据仓库 + Hadoop = 数据湖

我知道如何运行 Hadoop 并将数据引入 Hadoop。我想在本地数据湖上构建一个样本来演示我的经理。任何帮助表示赞赏。

score 0 · Accepted Answer

您可以使用 AWS 服务构建数据湖。一种简单的方法是使用 AWS CloudFormation 模板来配置解决方案，包括 AWS 服务，例如用于无限数据存储的 Amazon S3、用于身份验证的 Amazon Cognito、用于强大搜索功能的 Amazon Elasticsearch、用于微服务的 AWS Lambda、用于数据传输，以及用于数据分析的 Amazon Athena。下图展示了使用 AWS 服务在 AWS 上构建数据湖的完整架构。

请参阅本文以供参考：https ://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e

score 0 · Accepted Answer

您必须拥有结构化和非结构化数据才能将 Hadoop 集群变成数据湖。

因此，您必须有一些 ETL 管道来获取非结构化数据并将其转换为结构化数据。产品评论或类似的东西会提供你的非结构化数据。将其转换为 Hive 可用的东西（例如）将为您提供结构化数据。

我会查看https://opendata.stackexchange.com/以获取您的数据，并查看 google Hadoop ETL 以获取有关如何清理数据的想法。如何编写管道（Spark 或 MapReduce）取决于您。

hadoop - 从头开始构建数据湖

2 回答 2

Related

Reference