1

我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理及其用途;到处都是互联网。但是当问题出现时,如何从头开始构建一个没有来源。我想了解是否:

数据仓库 + Hadoop = 数据湖

我知道如何运行 Hadoop 并将数据引入 Hadoop。我想在本地数据湖上构建一个样本来演示我的经理。任何帮助表示赞赏。

4

2 回答 2

0

您可以使用 AWS 服务构建数据湖。一种简单的方法是使用 AWS CloudFormation 模板来配置解决方案,包括 AWS 服务,例如用于无限数据存储的 Amazon S3、用于身份验证的 Amazon Cognito、用于强大搜索功能的 Amazon Elasticsearch、用于微服务的 AWS Lambda、用于数据传输,以及用于数据分析的 Amazon Athena。下图展示了使用 AWS 服务在 AWS 上构建数据湖的完整架构。

请参阅本文以供参考:https ://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e

于 2020-02-07T05:32:44.997 回答
0

您必须拥有结构化和非结构化数据才能将 Hadoop 集群变成数据湖。

因此,您必须有一些 ETL 管道来获取非结构化数据并将其转换为结构化数据。产品评论或类似的东西会提供你的非结构化数据。将其转换为 Hive 可用的东西(例如)将为您提供结构化数据。

我会查看https://opendata.stackexchange.com/以获取您的数据,并查看 google Hadoop ETL 以获取有关如何清理数据的想法。如何编写管道(Spark 或 MapReduce)取决于您。

于 2019-02-27T06:52:20.567 回答