1

我有文档图像形式的非结构化数据。我们正在将这些文档转换为 JSON 文件。我现在想为此捕获技术元数据。有人可以给我一些在 Google Cloud Platform 中基于非结构化数据构建数据目录的提示/最佳实践吗?

4

1 回答 1

1

这个答案假设您没有使用任何工具来围绕您的非结构化数据创建架构并查询您的数据,例如BigQueryHivePresto。而且您只想对文件进行编目。

我有一个类似的用例,谷歌数据目录有一个创建自定义条目的选项。

在非结构化文件数据上构建数据目录的一些技巧:

  1. 在您的 JSON 文件上使用有意义的文件名。这样搜索它们将变得更容易。
  2. 由于您已经在使用 GCP,请使用他们的托管数据目录,并利用他们的自定义条目API 将文件元数据提取到其中。
  3. 如果您还想在 JSON 文件中查找敏感数据,可以在它们上运行 DLP
  4. 使用数据目录标签来丰富文件元数据。链接上的教程显示了如何在 Big Query 表上执行此操作,但您可以在自定义条目上执行相同操作。

我将添加一些有关将 JSON 文件中的这些文档转换为标签的 ETL 作业的信息。比如执行时间、数据质量得分、用户、企业主等。

如果您想知道如何执行第 2 步,我整理了一个自动执行此操作的脚本: GitHub在此处输入图像描述 链接。另一种选择是使用数据目录文件集

所以在使用自定义条目文件集之间,我会问你这个,你需要关于你的文件名的信息吗?

如果不是,那么文件集可能会更容易,因为在撰写本文时它不会显示有关您的文件名的任何信息,但可以很好地管理 GCS 存储桶中的文件模式:It is defined by one or more file patterns that specify a set of one or more Cloud Storage files.

datatalog -util还可以选择丰富您的文件集,以防您只想获得有关它们的统计信息,例如平均文件大小、类型等。

于 2020-07-04T15:01:18.967 回答