3

我一直在为客户设置数据湖,在其中我们将来自本地或任何其他来源的数据加载到 S3(数据湖)中。我们将在这些原始数据上创建一个 AWS Glue 目录以创建架构。

下一步是使用 EMR 或 AWS Glue 进行一些数据清理,将转换后的数据加载到 RDS / REDSHIFT / S3 作为最终目标。

根据使用的用例/服务,可以使用数据管道、Glue 作业或 AWS Lambda 事件触发器来安排作业。

分析师和其他用户将使用 IAM 服务获得所需的数据/S3 存储桶访问权限,以进行 Quicksight 可视化或使用 Athena、Drill 等进行数据查询,或将数据用于 Sagemaker 中的 ML 应用程序。

我的问题是 AWS Lake Formation 与传统数据湖有何不同?

我可以定义 AWS Lake Formation 提供上述所有服务,例如 S3、Glue 目录、Glue 中的 ETL 代码生成器、作业调度程序等,都可以在单个窗口中使用吗?为用户/数据(记录/列级别)提供一些更高级的安全性,可以从 Lake Formation 控制台中配置。

还有什么其他因素使 Lake Formation 从传统的基于云的 Data Lake 中脱颖而出?

谢谢

4

2 回答 2

4

您的理解是正确的,Lake Formation 本质上只是 Glue 目录上的权限模型,它允许与其他 AWS 数据湖工具紧密集成:Athena、S3、Glue、EMR 等。以及蓝图等一些附加功能(用于同步从 RDBMS 到 S3 的数据)、作业(用于 ETL)和爬虫(用于数据发现)。

Lake Formation 允许通过 Lake Formation UI 和 API 对“用户”IAM 角色进行集中管理,从而更轻松地管理环境中的“用户”IAM 角色。每次角色需要新的访问权限时,都不必更新单个 IAM/存储桶策略,Lake Formation 允许您加入单个“服务”IAM 角色以获得存储桶访问权限,然后向用户 IAM 授予数据库/表/列级别访问权限需要它的角色。

用户角色本质上承担了服务角色来执行他们的操作(可能不完全假设,因为这是一个 AWS 黑盒)。因此,Lake Formation 使您免于通过一堆 IAM/桶策略来管理所有用户 IAM 角色的权限的麻烦。

如果您的设置需要,它还可以轻松地与跨帐户资源共享数据进行集成。

于 2020-04-02T21:35:57.310 回答
4

AWS Lake Formation 主要是一个权限控制层,它与 AWS Glue 相结合,基本上提供目录和权限控制。Lake Formation 提供了对 IAM 权限管理的缓和,而是使用简单的 DB 类授权提供了自己的基于授权的细粒度权限控制。

Lake Formation 在与 EMR 等数据服务的集成方面仍然存在一些挑战。(它需要额外的 IAM 策略)但总体而言,将 Lake Formation 与 S3 结合使用,Glue ETL 提供了构建数据湖所需的一切。

Lake Formation 仍然可以从改进的 UI 和数据发现中受益。

您可以使用 Lake Formation 来实施传统样式的 Data Lake,或者使它们更加模块化,并跨多个 AWS 账户提供支持。

于 2020-09-12T06:04:37.017 回答