0

根据我们的 AWS 环境,我们有 2 种不同类型的 SAG(服务帐户组)用于数据存储。一个 SAG 用于通用存储,另一个 SAG 用于仅保存 PII 或受限数据的安全数据。在我们的环境中,我们计划部署 Glue 。在那种情况下,我们会在安全和非安全上都有一个元存储吗?如果我们需要两个元存储,这将如何与 Databricks 一起使用?如果是一个元存储,如何处理安全数据?请帮助我们了解更多详情。

4

2 回答 2

0

在 AWS Glue 中,每个 AWS 账户在每个区域都有一个持久性元数据存储(称为 Glue 数据目录)。它包含用于管理您的 AWS Glue 环境的数据库定义、表定义、作业定义和其他控制信息。您使用 IAM 管理对该对象的权限(例如,谁可以对该对象进行 GetTable 或 GetDatabase API 调用)。

除了 AWS Glue 权限外,您还需要配置数据本身的权限(例如,谁可以对存储在 S3 上的数据进行 GetObject API 调用)。

所以,回答你的问题。是的,您将拥有一个数据目录。但是,根据您的安全要求,您将能够对元数据和内容定义基于资源和基于角色的权限。

您可以在此处找到详细概述 - https://aws.amazon.com/blogs/big-data/restrict-access-to-your-aws-glue-data-catalog-with-resource-level-iam-permissions-和基于资源的策略

于 2020-10-06T01:05:10.673 回答
0
  1. 如果您使用具有一个 AWS 账户的单个区域,那么安全数据和通用数据将只有一个元存储,并且您必须使用细粒度的访问策略来处理访问。
  2. 更好的方法是在一个 AWS 账户中使用 2 个不同的区域,或者使用两个不同的 AWS 账户,以便轻松管理两个不同元存储的访问。

要将您的元存储与 (1) 的 Databricks 集成,您必须创建两个具有资源级别访问权限的 Glue 目录实例配置文件。一个实例配置文件将有权访问通用数据库和表,而另一个将有权访问安全数据库和表。

要将您的元存储与 (2) 的 Databricks 集成,您只需创建两个可访问相应元存储的 Glue 目录实例配置文件。

建议使用第二个选项,因为它可以为你们节省大量的维护成本和长期运行的人为错误。有关Glue 目录和 Databricks 集成的更多详细信息。

编辑: 根据评论中的讨论,如果我们必须访问同一 Databricks Runtime 中的两个数据集,则选项 2 将不起作用。选项 1 可与 2 个权限集一起使用。首先仅用于通用数据,其次用于通用和安全数据。

于 2020-10-06T06:00:02.513 回答