我们使用 MySQL (Cloud SQL) 作为 Dataproc 的元数据存储库。这不存储不属于 Hive 外部表的 GCS 文件的任何信息。
谁能建议将所有文件/数据详细信息存储在 Google Cloud 的一个目录中的最佳方法?
我们使用 MySQL (Cloud SQL) 作为 Dataproc 的元数据存储库。这不存储不属于 Hive 外部表的 GCS 文件的任何信息。
谁能建议将所有文件/数据详细信息存储在 Google Cloud 的一个目录中的最佳方法?
德沃尔扎克,
数据目录成为 GA:数据目录 GA
他们已经更新了文件集的文档: 数据目录文件集
此外,如果您想为每个云存储对象创建数据目录资产,您可以使用这个开源脚本:datacatalog-util,它可以选择为您的文件创建条目。
最后还有一个开源连接器脚本,如果您想将 Hive 数据库/表摄取到数据目录中。