我在 Azure 云平台的 databricks 实例中有 3-4 个集群。我想为所有集群维护一个公共元存储。让我知道是否有人实现了这一点。
问问题
561 次
1 回答
2
我建议配置一个外部 Hive 元存储。默认情况下,Detabricks 在幕后旋转自己的元存储。但是您可以创建自己的数据库(Azure SQL 也可以,MySQL 或 Postgres 也可以)并在集群启动期间指定它。
以下是详细步骤: https ://docs.microsoft.com/en-us/azure/databricks/data/metastores/external-hive-metastore
需要注意的事项:
- Databricks 中的数据选项卡 - 您可以选择集群并查看不同的元存储。
- 为避免使用 SQL 用户和密码,请查看托管身份https://docs.microsoft.com/en-us/azure/stream-analytics/sql-database-output-managed-identity
- 使用集群的初始化脚本自动化外部 Hive 元存储连接
- 对您的来源进行权限管理。对于 ADLS Gen 2,考虑使用密码直通
于 2020-07-12T18:28:11.947 回答