2

我偶然发现了这篇文章:

http://blog.cloudera.com/blog/2011/04/simple-moving-average-secondary-sort-and-mapreduce-part-3/

其中提到了如何使用 Hadoop 计算移动平均值。

请注意,一个 KEY 的所有记录都应该先排序,然后再减少。现在假设特定 KEY 的记录分布在 Mongo 集群的所有分片中。在这种情况下,是否可以计算移动平均线?

我知道 Mongo 会在每个节点上减少地图。解决此问题的主要要求是确保在单个 reduce 阶段减少 map 的所有发射。如果真是这样,那么 Mongo Map Reduce 将永远无法解决此类问题。是不是有一些基本的误解?

此外,有数十亿行和 PB 级数据,为什么 Hadoop Reduce 阶段不会崩溃内存,因为它必须处理至少几 TB 的映射数据。

4

0 回答 0