我有在数据块中运行的 pyspark 笔记本。我使用 pyhive 中的“hive.Connection”连接到外部配置单元集群。我的数据在火花数据框中。我的问题是如何将数据帧中的这些数据写入 Hive 的新表中,该表位于数据块以外的不同集群中?
谢谢
我有在数据块中运行的 pyspark 笔记本。我使用 pyhive 中的“hive.Connection”连接到外部配置单元集群。我的数据在火花数据框中。我的问题是如何将数据帧中的这些数据写入 Hive 的新表中,该表位于数据块以外的不同集群中?
谢谢
每个 Databricks 部署都有一个中央 Hive 元存储,所有集群都可以访问以持久化表元数据。您可以选择使用现有的外部 Hive 元存储实例,而不是使用 Databricks Hive 元存储。
本文介绍如何设置 Azure Databricks 群集以连接到现有的外部 Apache Hive 元存储。它提供了有关推荐的元存储设置和集群配置要求的信息,然后是配置集群以连接到外部元存储的说明。
您可以查看这篇关于使用 Azure Databricks 保护对共享元存储的访问的文章。