我将数据流式传输到 BQ,每天我在 Dataprep 中运行一个计划的作业,该作业需要 24 小时的数据并修改一些数据并在 BQ 数据集中创建一个包含 24 小时数据的新表。
原始表保持不变并继续收集数据。
我想做的是在 dataprep 复制后删除表中的所有行,以便收集新的 24 小时数据流
我怎样才能使它自动化,我似乎在 dataprep 中找不到任何删除原始表并创建新表的内容。
我将数据流式传输到 BQ,每天我在 Dataprep 中运行一个计划的作业,该作业需要 24 小时的数据并修改一些数据并在 BQ 数据集中创建一个包含 24 小时数据的新表。
原始表保持不变并继续收集数据。
我想做的是在 dataprep 复制后删除表中的所有行,以便收集新的 24 小时数据流
我怎样才能使它自动化,我似乎在 dataprep 中找不到任何删除原始表并创建新表的内容。
由于您不断地摄取数据,因此您可以将表设置为分区表。
此选项是手动执行的:
bq rm '[YOUR_DATASET].[YOUR_TABLE]$xxxxxxx'
并且可以通过过期时间设置表的数据将被删除的时间:
bq update --time_partitioning_expiration [INTEGER] [YOUR_PROJECT_ID]:[YOUR_DATASET].[YOUR_TABLE]
您可以使用计划查询来清除表:
https://cloud.google.com/bigquery/docs/scheduling-queries
计划查询支持 DDL,因此您可以计划每天从该表中删除所有行或完全删除该表的查询。在特定时间。