2

有一个包含聚合数据的数据集 - 聚合到各个维度,一直到每小时级别。主要衡量标准是速度,即文件大小除以持续时间。

要求是查看百分位数、中位数和平均值/平均值摘要。

平均值很简单,因为我们只需在 MDX 中创建一个计算度量,然后它就可以在所有聚合级别上工作,即每天/每月等。

但是百分位数和中位数很难。有没有什么方法可以计算这些函数并正确汇总?当我们读取原始数据时,我们可以将百分位速度作为一列添加到 ETL 中,但是我们仍然需要找到一种方法来进一步汇总它?

汇总这些类型的措施的正确方法是什么?询问百分位数的情况并不少见,所以当我环顾四周时,我很惊讶没有看到太多这方面的信息。

也许唯一的方法是让各种聚合表处于正确的级别,进行正确的计算,然后让 mondrian 将它们用作聚合表?或更糟糕的情况是有多个立方体(!)

4

1 回答 1

2

好的,所以事实证明你不能汇总百分位数(因此中位数只是第 50 个百分位数)我知道其他人遇到了这个问题,请在此处查看来自 Kasper 的这条推文:https ://twitter.com/kaspersor/status/308189242788560896

所以我们的解决方案是使用几个不同的聚合表来存储相关统计数据,并在主(已经聚合的)事实表上存储预先计算的百分位数和中位数统计数据。

于 2013-03-06T15:57:27.680 回答