5

我们有大量数据,用户可能希望查看窗口并快速查看。他们可能希望查看一天、一周、一个月或任意开始和结束数据的数据窗口。事实证明,对所有这些东西进行实时排序和总结对我们来说很痛苦,所以我想到了在 3D 渲染中做一些类似于 Mipmaps 的事情。您最终会存储以各种不同比例预先计算的相同数据,然后使用不同比例对结果进行插值。所以我已经知道商店的一年、给定月份、给定一周和给定日期的数字是多少,如果他们要求特定范围,我会使用各种比例快速加起来给出正确的结果,但我不必重新处理完整的数据集,

这是一个真实的模式吗?这有什么意义吗?有一些地方我可以读到如何做到最好,或者有更好的方法来处理像这样需要在不同切片中查看的大块数据?

看起来这应该是一个众所周知且已解决的问题。例如,很多人都有股票投资组合,他们每天都需要做这种事情。我们的数据不是股票价格,但想法是一样的。

4

3 回答 3

2

好的,我搜索了又搜索了一些。Andy Dent 的链接让我开始将数据描述为“时间序列”,这对一些人有所帮助。然后我遇到了OLAP并意识到我正在做的是重新发明它。我知道这必须是一个众所周知的、彻底解决的问题,我是对的。OLAP 就是这样。

您构建了一堆聚合表,它们沿特定维度(在这种情况下为时间)聚合数据,您甚至可以获得像Mondrian这样的工具,它将接受用另一种查询语言(即不是 SQL)编写的查询和一组事实表加上聚合它将决定如何最好地对这些表执行查询。

于 2009-11-06T16:11:29.230 回答
1

从某种意义上说,当您解释 Mip Mapping 的工作原理(通过插值/外推)时,我认为您在这里回答了自己的问题。

在不同级别的“缩放”中,您只需选择较低的数据分辨率或采样率。相反将适用于更高级别的“缩放” - 到您需要对数据使用插值(如线性/多项式/样条/等)来估计数据点之间的值的点。

于 2009-11-04T22:01:19.990 回答
1

我喜欢你对 mipmapping 的类比,我认为Observations and Measurements领域,尤其是采样机制可能是你找到你所追求的抽象数据设计的地方。它为您提供了数据背后的理论,尽管他们更多地考虑 XML 数据模型而不是关系表。

我曾经和 CSIRO 的人一起工作,很多想法来自于必须管理大量数据集,比如水采样传感器。SEEGrid wiki上的更多详细信息。

于 2009-11-06T05:24:48.007 回答