我根据存储在 BigQuery 表中的数据构建按需生成的统计输出。每天使用“仅附加”通过缝合导入一些数据。这导致在导入的表中出现重复的观察结果(大约 20kk 行每年增长 8kk)。
我可以安排一个 BigQuery 查询以将重复数据删除的值存储在已清理的表中,或者构建视图来执行相同的操作,但我不了解以下方面的权衡:
- BigQuery存储/运行计划查询和视图的成本。
- 稍后查询的速度取决于去重视图。视图是否缓存?
我是否正确地假设存储去重数据的每日计划查询成本更高(用于重写存储的表)但加快了以后对去重数据的查询(节省使用成本)?
重复数据删除后的数据将依次每天被查询数百次,以生成关注响应性的仪表板输出。
在决定更好的解决方案时我应该如何争论?