amazon-s3 - AWS Glue 数据目录作为 Databricks 等外部服务的元存储

Question

假设数据湖在 AWS 上。使用 S3 作为存储，使用 Glue 作为数据目录。因此，我们可以轻松地使用 athena、redshift 或 EMR 在 S3 上使用 Glue 作为元存储来查询数据。

我的问题是，是否可以将 Glue 数据目录公开为外部服务（如 AWS 上托管的 Databricks）的元存储？

score 3 · Accepted Answer

现在 Databricks 提供了将 Glue 数据目录制作为 Metastore 的文档。应该按照以下步骤完成：

创建 IAM 角色和策略以访问 Glue 数据目录
为目标 Glue 目录创建策略
查找用于创建 Databricks 部署的 IAM 角色
将 Glue 目录 IAM 角色添加到 EC2 策略
将 Glue 目录 IAM 角色添加到 Databricks 工作区
启动具有 Glue 目录 IAM 角色的集群

参考：https ://docs.databricks.com/data/metastores/aws-glue-metastore.html 。

score 1 · Accepted Answer

Databricks 提供了一些不错的文档/文章（请参阅文档和博客文章），尽管它们涵盖了自定义/旧版 Hive 元存储集成，而不是 Glue 本身。

此外 - 作为B 计划- 应该可以检查您在 Databricks 元存储中的表/分区定义，并通过 Java SDK 对 Glue 进行单向复制（或者也可以反过来，将 AWS API 响应映射到序列/语句）create table。create partition当然，这涉及到相当复杂的极端情况，例如级联分区/表删除等，但对于一些简单的仅创建的东西，它似乎至少是平易近人的。

amazon-s3 - AWS Glue 数据目录作为 Databricks 等外部服务的元存储

2 回答 2

Related

Reference