我想使用 Google DLP 对 BiqQuery 中已经存在的 PII 数据进行去标识化,并将结果存储在 BigQuery 中的另一个表中。那可能吗 ?以及如何做到这一点?
问问题
697 次
3 回答
1
于 2020-08-13T19:07:41.763 回答
1
DLP 中对敏感数据进行去识别的不同方法可通过 API 获得,例如,我们可以使用replaceConfig
以下方法替换:
我的电子邮件地址是 astacko@example.com。
至
我的电子邮件地址是 [电子邮件地址]。
通过使用这样的 API 请求:
"deidentifyConfig":{
"infoTypeTransformations":{
"transformations":[
{
"infoTypes":[
{
"name":"EMAIL_ADDRESS"
}
],
"primitiveTransformation":{
"replaceConfig":{
"newValue":{
"stringValue":"[email-address]"
}
}
}
}
]
}
}
因此,对于您的用例,您需要将 De-identifying API 集成到从 BigQuery 读取、执行 De-identifying 转换并写回 BigQuery 的流中。
Cloud DLP in action是一篇讨论此问题的 Google 帖子。它指出了 Dataflow 来实现这个用例。请参阅此参考架构以了解其工作原理,您将在其中找到一些Java 类示例。您可以根据需要对其进行修改,以便将其提取到 BigQuery。
于 2020-08-14T20:12:24.577 回答
0
作为一种快速解决方法,我会考虑将带有 PII 的表移动到访问受限的数据集中。然后,在一个新数据集中,创建一个不包含敏感列的视图。仅授予用户对具有视图的数据集的查询访问权限,而不是私有数据集。
于 2020-08-13T01:24:54.877 回答