问题标签 [google-data-catalog]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
93 浏览

google-cloud-platform - Google Cloud Platform:有什么方法可以重新排列现有数据目录模板中的字段?

我在现有 GCP 数据目录模板中添加了一个新字段,默认情况下将其添加到底部。我希望这个新领域看起来更高。是否有某种方法我没有看到重新排列 DC 模板中的字段顺序?如果这是不可能的,我将被迫重新创建模板,有没有办法导出 DC 元数据,然后将其导入到新版本的模板中?感谢您的帮助!

0 投票
1 回答
1153 浏览

google-cloud-platform - BigQuery 中的政策标签

有没有办法在 BigQuery 中全局分配政策标签?而不是进入每一张桌子并把它放在那里?

0 投票
0 回答
183 浏览

google-cloud-platform - 数据目录:更新标签时出错 - 错误 400:不支持的字段掩码路径:“列”,支持的字段掩码为:字段

我将标签模板附加到 BigQuery 表的列。为此,我正在使用 Terraform,并且我刚刚在 terraform 文档中重新创建了代码。

文档:https ://registry.terraform.io/providers/hashicorp/google/latest/docs/resources/data_catalog_tag

不幸的是,每次我运行 'terraform apply' 两次,我都会得到下一个 API 错误:

当我两次创建此资源时,Terraform 就像不高兴一样。为了避免这种情况,我使用了:

但我想知道可能是什么原因,是否有更好的方法来解决这个问题。

0 投票
1 回答
272 浏览

python - 错误 Python API GCP 数据目录 - Google Cloud Platform

我在尝试使用此链接的代码时遇到错误:数据目录示例。在第 4 步,只需复制粘贴提供的所有代码,在我的 GCP 项目中进行身份验证并对其进行测试。

一切都很好,直到它开始创建标签模板字段......

它总是因相同的错误而崩溃。

错误图像

有人可以帮助我分享替代方案吗?

0 投票
2 回答
156 浏览

google-data-catalog - Data Catalog 不会自动从存储桶 (GCS) 中的文件中读取技术元数据

在 Google 数据目录中,我尝试创建一个新条目组,然后创建一个文件集条目,其中配置了存储桶和文件模式。我没有故意在文件集中定义模式,因为我希望数据目录自动在文件中/从文件中查找技术元数据。一切都是通过 Google 控制台 UI 设置的。

Data Catalog 找不到与存储桶中的文件相关的元数据。但是,如果我创建一个 BigQuery 表和一个 Pub/Sub 主题,来自这些资源的元数据会立即显示出来。

我希望 Data Catalog 能够扫描我们存储桶中的文件并自动显示元数据(可搜索)。存储桶中的文件是 .avro、.json、.parquet 或 .csv。如前所述,这适用于 BigQuery 和 Pub/Sub。我对文档的理解是,这也适用于 Cloud Storage 中的对象。

有没有人尝试过这个并且可以请对这个问题有所了解?

谢谢。

0 投票
1 回答
32 浏览

azure - Google Cloud Data Catalog 可以链接到 Azure Data Lake 和 Azure SQL 数据库吗?

是否可以使用 Google Cloud Data Catalog 对 Azure Data Lake、Blob 存储或 Azure SQL 数据库进行编目?

0 投票
0 回答
29 浏览

python - google-cloud-datacatalog 0.8.0 缺少 TagTemplate 选项

我正在开发谷歌云作曲家中的数据目录集成管道。由于我使用的是 composer 版本 composer-1.12.4-airflow-1.10.10,它不允许我同时安装 google-cloud-datacatalog 版本 3 或更高版本,它只允许 0.8.0 或更低版本。这是因为内部冲突。当我尝试使用 0.8.0 版时,在创建 TagTemplate 对象时,它给出了TagTemplate Not Found 异常。所以我只能选择升级作曲家,这在这一点上非常困难,因为我需要测试 200 多个现有管道的兼容性。是否有任何其他选项以编程方式我可以使用 0.8.0 版本解决这个问题。

这是我的模块的摘录:

在此处输入图像描述

0 投票
1 回答
258 浏览

node.js - 通过使用 Cloud Data Loss Prevention 检查 BigQuery 数据来创建数据目录列标签

我想使用 DLP 在 BigQuery 中检查我的表,然后将结果写入表列上的策略标签。例如,我有一个(测试)表,其中包含个人的电子邮件地址和电话号码等数据。我可以使用 DLP 来查找这些字段并将它们识别为电子邮件和电话号码,我可以在控制台中或通过 API(我正在使用 NodeJS)执行此操作。创建此检查作业时,我知道我可以将其配置为自动将结果写入数据目录,但这会在table上生成标签,而不是在列上。我想用已识别的特定类型的 PII 标记列。

我发现这个教程似乎完全实现了这一点——但教程是一个强有力的词;它是一个用 Java 编写的脚本,是对该脚本作用的基本解释,唯一的实际说明是克隆 git 存储库并运行一些命令。没有关于正在进行哪些 API 调用的信息,代码中没有很多注释,也没有指向相关文档的链接。我对 Java 的经验为零,因此我无法解决该过程并将其转换为 NodeJS 以用于我自己的目的。

我还发现了这个类似的教程,它也使用了 Dataflow,并且说明只是“克隆这个 repo,运行这个脚本”。我已包含该链接,因为它提供了一个屏幕截图,显示了我想要实现的目标:使用 DLP 找到的 PII 数据标记列

所以,我想做的似乎是可能的,但我在任何地方都找不到有用的文档。我已经阅读了 DLP 和数据目录文档,以及 NodeJS 的 API 参考。如果有人可以帮助我弄清楚如何做到这一点,我将不胜感激。

更新:我取得了一些进展并因此改变了我的方法。

DLP 提供了两种检查数据的方法:dlp.inspectContent()dlp.createDlpJob()。后者需要一个可以是 BigQuery 表的 storageItem,但它不会返回有关结果中列的任何信息,所以我不相信我可以使用它。

inspectContent() 不能在 BigQuery 表上运行;它可以检查结构化文本,这是我上面链接的 Java 脚本所使用的;该脚本正在查询 BigQuery 表,并根据结果构造一个,然后将该表传递给 inspectContent(),然后返回一个包含字段名的结果对象。我想这样做,但是在 NodeJS 中。我正在努力将 BigQuery 结果转换为 Table 的格式,因为 NodeJS 似乎没有该类型的构造函数,就像 Java 那样。

0 投票
1 回答
178 浏览

google-bigquery - 为什么 BigQuery 政策标记列在 GROUP BY 语句中使用时会阻止访问其他列?

我们正在探索使用 BigQuery 政策标签来实现列级安全性。我们发现,当用户无权访问的列包含在 GROUP BY 子句中时,用户也无法访问 GROUP BY 子句中的其他列。

让我用一个人为的例子来解释。想象一下,我们有一个t包含两列的表:

  • t.a
  • t.b

这些列上有策略标签,授予我们的最终用户查看数据的权限,t.a但不允许查看t.b.

因此我们的最终用户可以发出这个查询:

但是在发出此查询时:

他们得到一个错误:

访问被拒绝:BigQuery BigQuery:用户无权访问列 project.dataset.tb 上的策略标签“policy-tag-name”

这是意料之中的,也是设计使然。

但是,如果用户发出此查询:

然后发生同样的错误。

为什么是这样?用户没有访问任何他们不允许访问的数据。我正在努力理解为什么 group by 语句会导致此错误。任何人都可以启发我吗?

0 投票
1 回答
50 浏览

google-cloud-platform - Bigquery 更新元数据但禁用创建/删除/更改表

如果我们希望能够更新集中数据集中的表描述和数据目录的其他标签,应该将哪些角色正确分配给组/服务帐户?

我们目前有这个,但这只允许用户更新他们创建的表。不是集中式表格。

我知道角色 roles/bigquery.dataEditor 将能够涵盖这一点,但我们希望用户只更新现有的表元数据,但不允许删除或更改它。