4

我们使用 MySQL (Cloud SQL) 作为 Dataproc 的元数据存储库。这不存储不属于 Hive 外部表的 GCS 文件的任何信息。

谁能建议将所有文件/数据详细信息存储在 Google Cloud 的一个目录中的最佳方法?

4

2 回答 2

1

Google Cloud Data Catalog 测试版不适用于 GCS 或 Hive Metastore。请参阅此文档

标记 Cloud Storage 资产(例如,存储桶和对象)在 Data Catalog 测试版中不可用。

但它适用于 BigQuery,请参阅此快速入门示例。

于 2020-02-04T23:07:02.220 回答
0

德沃尔扎克,

数据目录成为 GA:数据目录 GA

他们已经更新了文件集的文档: 数据目录文件集

此外,如果您想为每个云存储对象创建数据目录资产,您可以使用这个开源脚本:datacatalog-util,它可以选择为您的文件创建条目。

最后还有一个开源连接器脚本,如果您想将 Hive 数据库/表摄取到数据目录中。

于 2020-05-12T21:20:05.817 回答