google-bigquery - 如何使用 DLP 扫描 BigQuery 表以查找敏感数据？

Question

我想使用DLP分析我在BigQuery中的表。有可能的？怎么做？

score 7 · Accepted Answer

这是可能的。您需要定义 storage_config 以使用 BigQuery。如果要将结果保存在另一个表中，save_findings请在作业配置中添加一个操作。如果没有操作，您将只能通过该projects.dlpJobs.get方法访问工作的发现摘要。

按照 python 中的示例调用 DLP 扫描 BigQuery：

client_dlp = dlp_v2.DlpServiceClient.from_service_account_json(JSON_FILE_NAME)

inspect_job_data = {
    'storage_config': {
        'big_query_options': {
            'table_reference': {
                'project_id': GCP_PROJECT_ID,
                'dataset_id': DATASET_ID,
                'table_id': TABLE_ID
            },
            'rows_limit':10000,
            'sample_method':'RANDOM_START',
        },
    },
    'inspect_config': {
        'info_types': [
            {'name': 'ALL_BASIC'},
        ],
    },
    'actions': [
        {
            'save_findings': {
                'output_config':{
                    'table':{
                        'project_id': GCP_PROJECT_ID,
                        'dataset_id': DATASET_ID,
                        'table_id': '{}_DLP'.format(TABLE_ID)
                    }
                }

            },
        },
    ]
}
operation = client_dlp.create_dlp_job(parent=client_dlp.project_path(GCP_PROJECT_ID), inspect_job=inspect_job_data)

以及用于分析结果的查询：

client_bq = bigquery.Client.from_service_account_json(JSON_FILE_NAME)
# Perform a query.
QUERY = (
    'WITH result AS ('
    'SELECT'
    ' c1.info_type.name,'
    ' c1.likelihood,'
    ' content_locations.record_location.record_key.big_query_key.table_reference as bq,'
    ' content_locations.record_location.field_id as column '
    'FROM '
    ' `'+ GCP_PROJECT_ID +'.'+  DATASET_ID +'.'+  TABLE_ID  +'_DLP` as c1 '
    'CROSS JOIN UNNEST(c1.location.content_locations) AS content_locations '
    'WHERE c1.likelihood in (\'LIKELY\',\'VERY_LIKELY\'))'
    'SELECT r.name as info_type, r.likelihood, r.bq.project_id, r.bq.dataset_id,'
    ' r.bq.table_id, r.column.name, count(*) as count  FROM result r GROUP By 1,2,3,4,5,6 '
    'ORDER By COUNT DESC'
)
query_job = client_bq.query(QUERY)  # API request
rows = query_job.result() 
for row in rows:
    print('RULES: {} ({}) | COLUMN: {}.{}.{}:{} | count->{}'.format
          (row.info_type, row.likelihood, row.project_id,row.dataset_id,row.table_id,row.name, row.count)

您可以在此处找到更多详细信息

score 0 · Accepted Answer

一个社区教程已经发布，讨论您的用例：dlp-to-datacatalog-tags。

之后，您可以在所有 Big Query 资源中运行 DLP，并在 Google 数据目录中自动创建标签。

因此，您可以使用 Google 数据目录搜索语法搜索敏感信息。

google-bigquery - 如何使用 DLP 扫描 BigQuery 表以查找敏感数据？

2 回答 2

Related

Reference