我在 mongodb 中有一组文档,我想计算某些属性的 CDF 并将其返回或存储在数据库中。显然,为每个文档添加一个新属性并不是一个好方法,我可以使用以后可以使用的近似值。这更像是一个理论问题。
因此,我使用 mapreduce 作业计算离散间隔上的 CDF 采样,如下所示(只是算法):
- 获取
count
,min
和max
属性someAttr
- 假设
min = 5
,max=70
,count = 200
. - 在
map()
:for (i=this.someAttr; i < max+1; i++) { emit(i, 1) }
reduce()
只需返回每个键的总和。- 在
finalize()
中,将减少的输出除以记录数:return val / count
。
但是,这确实会输出包含来自 CDF 的样本的集合。
正如您所看到的,这里的间隔步骤是1
,但是这种方法的巨大效率低下是即使从单个文档中也可能会产生大量的发射,即使集合中只有少数文档,因此这显然是不可扩展的,并且不管用。
输出如下所示:
{ _id: 5, val: 0}
{ _id: 6, val: 0.04}
{ _id: 7, val: 0.04}
...
{ _id: 71, val: 1.0}
从这里我可以很容易地得到任何值的 CDF 的近似值,如果这是合理的,甚至可以在它们之间进行插值。
有人可以让我深入了解您将如何使用 MapReduce(或者可能没有 MapReduce)计算 CDF(样本)吗?