1

在 Google 数据目录中,我尝试创建一个新条目组,然后创建一个文件集条目,其中配置了存储桶和文件模式。我没有故意在文件集中定义模式,因为我希望数据目录自动在文件中/从文件中查找技术元数据。一切都是通过 Google 控制台 UI 设置的。

Data Catalog 找不到与存储桶中的文件相关的元数据。但是,如果我创建一个 BigQuery 表和一个 Pub/Sub 主题,来自这些资源的元数据会立即显示出来。

我希望 Data Catalog 能够扫描我们存储桶中的文件并自动显示元数据(可搜索)。存储桶中的文件是 .avro、.json、.parquet 或 .csv。如前所述,这适用于 BigQuery 和 Pub/Sub。我对文档的理解是,这也适用于 Cloud Storage 中的对象。

有没有人尝试过这个并且可以请对这个问题有所了解?

谢谢。

4

2 回答 2

0

不幸的是,Data Catalog 目前没有检测到有关 GCS 文件集内容的内部元数据。

于 2021-03-24T15:31:56.810 回答
0

还有 Dataplex ( https://cloud.google.com/dataplex ),它可能完全满足您的需求。

于 2021-09-13T18:24:30.573 回答