2

data.fu 有一个很好的 HyperLogLog 实现,用于在这里估计基数

但是,它的实现Accumulator意味着它只会在 reducer 中运行,而不是在 combiner 中运行(但它永远不会像往常一样将整个集合加载到内存中EvalFunc)。为什么 data.fu 不能将其实现为Algebraic- 并在每个组合器处填充寄存器,然后合并并减少结果?我在这里错过了什么吗?

4

1 回答 1

0

在 1.3.0 中修复,现在它确实使用Algebraic. 见https://issues.apache.org/jira/browse/DATAFU-91

查看如何将任务从 10 分钟缩短到 2 分钟的详细信息:https ://docs.google.com/spreadsheets/d/1oVYSCh22kufgQ49pgsuboKOMxDgz8N5yBtRpxuo69Lk/edit#gid=0

于 2016-06-06T17:16:51.583 回答