0

以这样的方式存储数据的最佳方式是什么,以便我可以获得查询的实时答案,例如“给我统计过去 2 周失败的交易”、“统计过去 2 年内创建的帐户”。每次计算行数不是一种选择,因为表中的单个条目数量很大,并且可能需要数小时来计算。

我只对以滚动窗口方式实时查找聚合感兴趣。此外,我不想保留超过 2 年的数据,并希望自动将其删除。

有没有解决这个问题的标准方法?redshift/kinesis 之类的服务有帮助吗?

感谢期待。

4

1 回答 1

0

对于大多数数据仓库解决方案,我们构建了具有直到业务日期的分辨率的聚合表,这使得报告 2 年或更长时间的数据非常快速。Kinesis 可以帮助 Redshift 以高吞吐量摄取数据,然后您可以实时更新当天的聚合计数。这种方法的唯一困难是您需要提前知道要报告哪些聚合,以便您可以设置它们,但是一个体面的业务分析师应该能够在一开始就为您提供大部分覆盖指标。

于 2014-06-13T07:07:46.190 回答