8

假设数据湖在 AWS 上。使用 S3 作为存储,使用 Glue 作为数据目录。因此,我们可以轻松地使用 athena、redshift 或 EMR 在 S3 上使用 Glue 作为元存储来查询数据。

我的问题是,是否可以将 Glue 数据目录公开为外部服务(如 AWS 上托管的 Databricks)的元存储?

4

2 回答 2

3

现在 Databricks 提供了将 Glue 数据目录制作为 Metastore 的文档。应该按照以下步骤完成:

  1. 创建 IAM 角色和策略以访问 Glue 数据目录
  2. 为目标 Glue 目录创建策略
  3. 查找用于创建 Databricks 部署的 IAM 角色
  4. 将 Glue 目录 IAM 角色添加到 EC2 策略
  5. 将 Glue 目录 IAM 角色添加到 Databricks 工作区
  6. 启动具有 Glue 目录 IAM 角色的集群

参考:https ://docs.databricks.com/data/metastores/aws-glue-metastore.html 。

于 2020-01-10T22:07:05.040 回答
1

Databricks 提供了一些不错的文档/文章(请参阅文档博客文章),尽管它们涵盖了自定义/旧版 Hive 元存储集成,而不是 Glue 本身。

此外 - 作为B 计划- 应该可以检查您在 Databricks 元存储中的表/分区定义,并通过 Java SDK 对 Glue 进行单向复制(或者也可以反过来,将 AWS API 响应映射到序列/语句)create tablecreate partition当然,这涉及到相当复杂的极端情况,例如级联分区/表删除等,但对于一些简单的仅创建的东西,它似乎至少是平易近人的。

于 2018-06-26T10:38:08.193 回答