1

我想使用 Google DLP 对 BiqQuery 中已经存在的 PII 数据进行去标识化,并将结果存储在 BigQuery 中的另一个表中。那可能吗 ?以及如何做到这一点?

4

3 回答 3

1

目前主要推荐使用数据流。

https://github.com/GoogleCloudPlatform/dlp-dataflow-deidentification

于 2020-08-13T19:07:41.763 回答
1

DLP 中对敏感数据进行去识别的不同方法可通过 API 获得,例如,我们可以使用replaceConfig以下方法替换:

我的电子邮件地址是 astacko@example.com。

我的电子邮件地址是 [电子邮件地址]。

通过使用这样的 API 请求:

"deidentifyConfig":{
    "infoTypeTransformations":{
      "transformations":[
        {
          "infoTypes":[
            {
              "name":"EMAIL_ADDRESS"
            }
          ],
          "primitiveTransformation":{
            "replaceConfig":{
              "newValue":{
                "stringValue":"[email-address]"
              }
            }
          }
        }
      ]
    }
  }

因此,对于您的用例,您需要将 De-identifying API 集成到从 BigQuery 读取、执行 De-identifying 转换并写回 BigQuery 的流中。

Cloud DLP in action是一篇讨论此问题的 Google 帖子。它指出了 Dataflow 来实现这个用例。请参阅此参考架构以了解其工作原理,您将在其中找到一些Java 类示例。您可以根据需要对其进行修改,以便将其提取到 BigQuery。

于 2020-08-14T20:12:24.577 回答
0

作为一种快速解决方法,我会考虑将带有 PII 的表移动到访问受限的数据集中。然后,在一个新数据集中,创建一个不包含敏感列的视图。仅授予用户对具有视图的数据集的查询访问权限,而不是私有数据集。

https://cloud.google.com/bigquery/docs/share-access-views

于 2020-08-13T01:24:54.877 回答