我一直在为客户设置数据湖,在其中我们将来自本地或任何其他来源的数据加载到 S3(数据湖)中。我们将在这些原始数据上创建一个 AWS Glue 目录以创建架构。
下一步是使用 EMR 或 AWS Glue 进行一些数据清理,将转换后的数据加载到 RDS / REDSHIFT / S3 作为最终目标。
根据使用的用例/服务,可以使用数据管道、Glue 作业或 AWS Lambda 事件触发器来安排作业。
分析师和其他用户将使用 IAM 服务获得所需的数据/S3 存储桶访问权限,以进行 Quicksight 可视化或使用 Athena、Drill 等进行数据查询,或将数据用于 Sagemaker 中的 ML 应用程序。
我的问题是 AWS Lake Formation 与传统数据湖有何不同?
我可以定义 AWS Lake Formation 提供上述所有服务,例如 S3、Glue 目录、Glue 中的 ETL 代码生成器、作业调度程序等,都可以在单个窗口中使用吗?为用户/数据(记录/列级别)提供一些更高级的安全性,可以从 Lake Formation 控制台中配置。
还有什么其他因素使 Lake Formation 从传统的基于云的 Data Lake 中脱颖而出?
谢谢