0

我有在数据块中运行的 pyspark 笔记本。我使用 pyhive 中的“hive.Connection”连接到外部配置单元集群。我的数据在火花数据框中。我的问题是如何将数据帧中的这些数据写入 Hive 的新表中,该表位于数据块以外的不同集群中?

谢谢

4

1 回答 1

1

每个 Databricks 部署都有一个中央 Hive 元存储,所有集群都可以访问以持久化表元数据。您可以选择使用现有的外部 Hive 元存储实例,而不是使用 Databricks Hive 元存储。

本文介绍如何设置 Azure Databricks 群集以连接到现有的外部 Apache Hive 元存储。它提供了有关推荐的元存储设置和集群配置要求的信息,然后是配置集群以连接到外部元存储的说明。

您可以查看这篇关于使用 Azure Databricks 保护对共享元存储的访问的文章。

于 2020-10-01T08:48:34.700 回答