我计划每天将增量数据附加到 BigQuery 表中。每次向现有表添加增量数据时,我都想从表中的现有数据中消除重复记录(基于主键列)。一种方法是——
- 从增量数据中收集一组键(让我们称之为
INCR_KEYS
) - 对 -
SELECT all_cols from table where pkey_col NOT IN (INCR_KEYS)
- 行运行查询并将结果存储在新表中。 - 将增量数据附加到新表中。
我对这种方法的担忧是它会创建一个大表的副本并添加到我的账单中。
有没有更好的方法在不创建重复表的情况下实现相同的目标?